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内 容 提 要 
本 书 基于 丰富 的 图 示 和 具体 示例 ， 通 俗 易 懂 地 介绍 了 深度 学 习 相关 的 数学 
知识 。 第 1 章 介绍 神经 网 络 的 概况 ; 第 2 章 介 绍 理解 神经 网 络 所 需 的 数学 基础 
知识 ; 第 3 章 介 绍 神经 网 络 的 最 优化 ; 第 4 章 介 绍 神经 网 络 和 误差 反 向 传播 法 ; 
第 5 章 介绍 深度 学 习 和 卷 积 神 经 网 络 。 书 中 使 用 Excel 进行 理论 验证 ， 帮 助 读 
者 直观 地 体验 深度 学 习 。 

本 书 适合 深度 学 习 初学 者 阅读 。 
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了 路 


近年 来 ， 我 们 在 媒体 上 到 处 可 见 人 工 
习 是 人 工 智 能 的 一 种 实现 方法 。 下 卫 


有 怎样 划时代 的 意义 。 








智能 ( AI) 这 个 词 ， 而 深度 学 
学 习 具 


i 我 们 就 来 简单 地 看 一 下 深度 


























下 面 是 三 张 花 的 





图 片 ， 它 们 都 具有 同一 个 名 字 ， 那 究竟 是 





什么 呢 ? 

















一 | 
上 异 





管 案 是 玫瑰 。 
图 片 。 看 到 玫瑰 花 的 
在 计算 机 和 数学 的 世界 中 ， 
人 类 每 天 都 在 进行 着 模式 识别 。 








然 大 小 和 形状 都 不 一 样 ， 


图 片 ， 我 们 理所当然 就 
这 个 玫瑰 花 的 例子 属于 模式 识别 问题 。 
比如 ， 我 们 在 逛街 的 时 候 就 会 无 意识 地 








但 这 些 的 确 
E 状 别 出 


都 是 玫瑰 花 的 
“这 是 玫瑰 花 ”。 














进行 着 物体 的 辨别 :“ 那 是 电影 院 ” 
就 是 在 进行 模式 识别 。 
然而 ， 像 这 样 的 人 类 认为 很 自 
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得 非常 困难 。 例 如 ， 现 在 让 你 编写 一 个 模式 识别 的 计算 机 程序 ， 
图 片 中 单独 提取 出 玫瑰 花 的 
实际 上 ， 关 于 模式 识别 的 理论 创建 一 直 在 碰壁 。 
“玫瑰 是 
然而 效果 其 微 。 因 为 玫瑰 花 的 形状 实在 是 太 多 了 ， 
其 颜色 和 形状 每 时 每 刻 也 都 在 发 生变 化 ， 不 





大 量 花 的 








的 模式 识别 ， 以 前 的 逻辑 是 将 














瑰 花 ， 





有 更 大 的 差异 。 要 从 如 此 多 样 的 特征 之 中 得 出 


的 确 是 太 难 了 。 


“信号 灯 是 红 灯 ”， 等 等 。 换 言 之 ， 这 


然 的 事情 ,一 旦 想 让 机 带 来 做 ， 就 变 


使 其 从 








图 片 ， 你 可 能 就 束手无策 了 。 

例如 ， 对 于 玫瑰 花 
FE 的 东西 ” 教 给 机 需 ， 
即使 是 相同 品种 的 玫 
同 品种 的 玫瑰 花 则 会 


“玫瑰 ”这 样 一 个 概念 ， 





























具有 这 样 特 
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iv | 前 


后 来 ， 一 种 被 称 为 神经 网 络 的 数学 方法 被 研究 出 来 。 具 体 来 说 ， 就 
是 将 模拟 动物 的 神经 细胞 的 神经 元 聚集 起 来 形成 网 络 ， 然 后 让 这 个 网 络 
去 观察 大 量 的 玫瑰 花 的 图 片 ， 进 行 “自学 习 ”。 相 比 之 前 的 模式 识别 人 逻 
辑 ， 该 方法 取得 了 很 大 的 成 功 。 特 别 是 利用 称 为 卷 积 神经 网 络 的 多 层 结 
构 的 神经 网 络 ， 甚 至 可 以 从 图 片 和 视频 中 识别 出 人 和 猫 。 深 度 学 习 就 是 
用 具有 这 种 结构 的 神经 网 络 实现 的 人 工 智 能 。 

昌 然 “自学 习 ” 听 起 来 很 难 ， 但 神经 网 络 运用 的 数学 理论 是 非常 简 
单 的 ， 基 本 上 是 比较 基础 的 数学 知识 。 然 而 ， 很 多 文献 大 量 使 用 公式 和 
专业 术语 ， 令 人 难以 看 透 神经 网 络 的 本 质 ， 这 对 于 今后 人 工 智 能 的 发 展 
是 莫大 的 不 幸 和 障碍 。 本 书 作为 人 工 智 能 的 入 门 书 ， 目 的 就 是 要 破除 这 
种 障碍 ， 让 所 有 人 都 能 够 体会 到 神经 网 络 的 趣味 性 。 本 书 的 目标 是 用 初 
级 的 数学 知识 详细 地 讲解 深度 学 习 的 思想 。 

只 要 从 本 质 上 理解 了 基础 知识 ， 就 可 以 在 应 用 中 大 展映 手 。 但 愿 本 
书 能 够 对 21 世纪 人 工 智 能 的 发 展 有 所 贡献 。 

最 后 ， 本 书 从 策划 到 最 终 出 版 ， 得 到 了 技术 评论 社 渡 边 悦 司 先生 的 
大 力 支 持 ， 我 们 借 此 向 他 表达 深 深 的 谢意 。 
















































































2017 年 春 
笔者 


本 书 的 使 用 说 明 











e 本 书 的 目的 在 于 提供 理解 神经 网 络 所 需 的 数学 基础 知识 。 为 了 便于 读 
者 直观 地 理解 ， 书 中 使 用 大 量 图 片 ， 并 通过 具体 示例 来 介绍 。 因 此 ， 
本 书 将 数学 的 严谨 性 放 在 第 二 位 。 


e 深度 学 习 的 世界 是 丰富 多 彩 的 ， 本 书 主 要 考虑 阶层 型 神经 网 络 和 卷 积 
神经 网 络 在 图 像 识别 中 的 应 用 。 

e 本 书 将 Sigmoid 函数 作为 激活 函数 ， 除 此 之 外 也 可 以 考虑 其 他 函数 。 

e 本 书 以 最 小 二 乘法 作为 数学 上 的 最 优化 的 基础 ， 除 此 之 外 也 可 以 考虑 
其 他 方法 。 

e 神经 网 络 可 分 为 有 监督 学 习 和 无 监督 学 习 两 类 。 本 书 主要 讲解 有 监督 
学 习 。 

e 人 工 智能 相关 的 文献 之 所 以 难 读 ， 其 中 一 个 原因 就 是 各 文献 所 用 的 符 
号 不 统一 。 本 书 采 用 的 是 相关 文献 中 常用 的 符号 。 

e 本 书 使 用 Excel 进行 理论 验证 。Excel 是 一 个 非常 优秀 的 工具 ， 能 够 在 
工作 表 上 可 视 化 地 展现 逻辑 ， 有 助 于 我 们 理解 。 因 此 ， 相 应 的 项 目 需 
要 以 Excel 的 基础 知识 为 前 提 。 











































































































Excel 示 例文 件 的 下 载 





本 书 中 使 用 的 Excel 示例 文件 可 以 从 以 下 网 址 下 载 。 
http://www.ituring.com.cn/book/2593 





外 示例 文件 的 内 容 


文 件 名 概 要 

通过 简单 的 例子 确认 梯度 下 降 法 的 
原理 
不 使 用 误差 反 向 传播 法 ， 直 接 使 用 
Excel 执 行 最 优化 ， 确 定神 经 网 络 
4-4 NN (误差 反 向 传播 法 ) .xlsx ”| 使 用 误差 反 向 传播 法 确定 神经 网 络 
不 使 用 误差 反 向 传播 法 ， 直 接 使 用 
Excel 执 行 最 优化 ， 确 定 卷 积 神经 网 络 
使 用 误差 反 向 传播 法 确定 卷 积 神经 
网 络 

附录 A.xlsx 第 4 章 例 题 的 图 像 数 
附录 B.xlsx 第 5 章 例题 的 图 





2-11 梯度 下 降 法 .xlsx 





















































3-5 NN (求解 器 ) .xlsx 















































5-4 CNN (求解 器 ) .xlsx 














5-6 CNN (误差 反 向 传播 法 ) .xlsx 
































. 本 书 基 于 Excel 2013 执 笔 ， 不 保证 示例 文件 可 在 其 他 版 本 上 正常 运行 。 
* 示例 文件 的 内 容 可 能 会 变更 。 
* 读者 可 以 随意 变更 或 改良 示例 文件 的 内 容 ， 但 我 们 不 提供 支持 。 













































































第 1 章 神经 网 络 的 思 ; 
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第 2 章 神经 网 络 的 数学 基础 
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图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 尊重 版 权 


| 


神经 网 络 的 思想 


近 生 





F 来 的 热门 话题 ， 





由 此 发 


在 人 工 智 能 领域 ， 神 经 网 络 ( Neural Network，NN ) 是 





展 而 来 的 深度 学 习 更 是 每 天 都 被 经 


济 和 社会 新 闻 提 及 。 本 章 将 概述 神经 网 络 是 什么 ， 以 及 数学 是 























怎样 参与 其 中 的 。 为 了 帮助 大 家 直观 地 理解 ， 书 中 的 类 比 或 多 























或 少 有 些 粗 糙 ， 不 当 之 处 还 请 见谅 。 





2 | 第 1 章 神经 网 络 的 思想 


神经 网 络 和 深度 学 习 





深度 学 习 是 人 工 智能 的 一 种 具有 代表 性 的 实现 方法 ， 下 面 就 让 我 们 
来 考察 一 下 它 究 竟 是 什么 样 的 技术 。 


备 受 瞩目 的 深度 学 习 


在 有 关 深 度 学 习 的 热门 话题 中 ， 有 儿 个 被 媒体 大 肆 报 道 的 事件 ， 如 
下 表 所 示 。 
































年 > 价 事 件 

2012 年 在 世界 性 的 图 像 识别 大 赛 ILLSVRC 中 ， 使 用 深度 学 习 技 术 的 Supervision 方 
法 取得 了 完胜 

2012 训 利用 谷歌 公司 开发 的 深度 学 习 技 术 , 人 工 智能 从 YouTupe 的 视频 中 识别 出 
了 猫 








2014 年 | 苹果 公司 将 Siri 的 语音 识别 系统 变更 为 使 用 深度 学 习 技术 的 系统 

利用 谷歌 公司 开发 的 深度 学 习 技术 ，AlphaGo 与 世界 顶级 棋 手 对 决 ， 取 得 
了 胜利 
2016 年 | 奥迪 、 宝 马 等 公司 将 深度 学 习 技术 运用 到 汽车 的 自动 驾驶 中 























2016 年 















































如 上 表 所 示 ， 深 度 学 习 在 人 工 智能 领域 取得 了 很 大 的 成 功 。 那 么 ， 
深度 学 习 究 竟 是 什么 技术 呢 ? 深度 学 习 里 的 “深度 ”是 什么 意思 呢 ? 为 
了 解答 这 个 疑问 ， 首 先 我 们 来 考察 一 下 神经 网 络 ， 这 是 因为 深度 学 习 是 
以 神经 网 络 为 出 发 点 的 。 


神经 网 络 


谈 到 神经 网 络 的 想法 ,需要 从 生物 学 上 的 神经 元 (neuron ) 开始 
说 起 。 
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从 生物 学 的 扎实 的 研究 成 果 中 ， 我 们 可 以 得 到 以 下 关于 构成 大 脑 的 
神经 元 的 知识 (1-2 节 )。 


(i) ”神经 元 形成 网 络 。 

(i) ”对 于 从 其 他 多 个 神经 元 传递 过 来 的 信号 ， 如 果 它 们 的 和 不 超过 

某 个 固定 大 小 的 值 ( 阔 值 )， 则 神经 元 不 做 出 任何 反应 。 

(ii) 对 于 从 其 他 多 个 神经 元 传递 过 来 的 信号 ， 如 果 它 们 的 和 超过 某 

个 固定 大 小 的 值 ( 闪 值 )， 则 神经 元 做 出 反应 ( 称 为 点 火 )， 向 
另外 的 神经 元 传递 固定 强度 的 信号 。 

(iv) 在 GD 和 (fi 中 ， 从 多 个 神经 元 传递 过 来 的 信号 之 和 中 ， 每 个 信 
号 对 应 的 权重 不 一 样 。 


























当 信号 之 和 大 于 阔 值 时 ， 
进行 点 火 ， 并 向 相 邻 的 























信号 被 输入 到 神经 元 中 细胞 体 判 断 信号 之 和 进 
神经 元 传递 信号 
过 波 这 
x A "pA 
Ss 7 ? 


将 神经 元 的 工作 在 数学 上 抽象 化 ， 并 以 其 为 单位 人 工地 形成 网 络 ， 
这 样 的 人 工 网 络 就 是 神经 网 络 。 将 构成 大 脑 的 神经 元 的 集合 体 抽象 为 数 
学 模型 ， 这 就 是 神经 网 络 的 出 发 点 。 


用 神经 网 络 实现 的 人 工 智能 


看 过 以 往 的 科 纪 电影、 动画 片 就 知道 ， 人 工 智 能 是 人 们 很 早 就 有 
的 想法 。 那 么 ， 早 期 研究 的 人 工 智能 和 用 神经 网 络 实现 的 人 工 智能 有 
哪些 不 同 呢 ? 答案 就 是 用 神经 网 络 实现 的 人 工 智 能 能 够 自己 学 习 过 去 
的 数据 。 

以 往 的 人 工 智能 需要 人 们 事先 将 各 种 各 样 的 知识 教 给 机 器 ， 这 在 工 
业 机 需 人 等 方面 取得 了 很 大 成 功 。 
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工业 机 器 人 

多 数 工 业 机 器 人 使 用 的 都 是 “人 教导 
机 器 ”类 型 的 人 工 智 能 ， 很 多 机 器 人 
掌握 了 各 领域 专家 的 技能 。 















































而 对 于 用 神经 网 络 实现 的 人 工 智能 ， 人 们 只 需要 简单 地 提供 数据 即 
可 。 神 经 网 络 接收 数据 后 ， 会 从 网 络 的 关系 中 自己 学 习 并 理解 。 





20 世纪 的 “人 教导 机 器 ”类 型 的 人 工 智能 ， 现 在 仍然 活跃 在 各 种 领 
域 ， 然 而 也 有 一 些 领域 是 它 不 能 胜任 的 ， 其 中 之 一 就 是 模式 识别 。 让 我 
们 来 看 一 个 简单 的 例子 。 


| 


' 回国 有 一 个 用 8 x 8 像素 读 取 的 手写 数字 的 图 像 ， 考 虑 如 何 让 计算 机 
;判断 图 像 中 的 数字 是 否 为 0。 


和 


读 取 的 手写 数字 的 图 像 如 下 图 所 示 。 









































































































































这 些 图 像 虽 然 大 小 和 形状 各 异 ， 但 都 可 以 认为 正解 是 数字 0。 可 是 ， 
如 何 将 这 些 图 像 中 的 数字 是 0 这 个 事实 教 给 计算 机 呢 ? 
要 用 计算 机 进行 处 理 ， 就 需要 用 数学 式 来 表示 。 然 而 ， 像 倍加 这样 
的 情况 ， 如 果 使 用 20 世纪 的 常规 手段 ,将 “0 具有 这 样 的 形状 ” 教 给 计 
算 机 ， 处 理 起 来 会 十 分 困难 。 况 且 ， 如 下 所 示 ， 对 于 写 得 很 难看 的 字 、 
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读 取 时 受到 噪声 影响 的 字 ， 虽然 人 能 够 设法 辨认 出 来 是 0， 但 要 将 这 种 辨 
认 的 条 件 用 数学 式 表 达 ， 并 教 给 计算 机 ， 应 该 是 无 法 做 到 的 。 









































































































































从 这 个 简单 的 回国 中 可 以 看 出 ,“ 人 教导 机 器 ”类 型 的 人 工 智 能 无 
法 胜任 图 像 、 语 音 的 模式 识别 ， 因 为 要 把 所 有 东西 都 教 给 计算 机 是 不 现 
实 的 。 

不 过 , 在 20 世纪 后 期 ， 对 于 这 样 的 问题 ， 人 们 找到 了 简单 的 解决 方 
法 ， 那 就 是 神经 网 络 以 及 由 其 发 展 而 来 的 深度 学 习 。 如 前 所 述 ， 有 具体 来 
说 就 是 由 人 提供 数据 ， 然 后 由 神经 网 络 自己 进行 学 习 。 

如 此 看 来 ， 神 经 网 络 似乎 有 一 些 不 可 思议 的 逻辑 。 然 而 ， 从 数学 上 
来 说 ， 其 原理 十 分 容易 。 本 书 的 目的 就 是 阐明 它 的 原理 。 
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神经 元 工作 的 数学 表示 





就 像 我 们 在 1-1 节 看 到 的 那样 ， 神 经 网 络 是 以 从 神经 元 抽象 出 来 的 
数学 模型 为 出 发 点 的 。 下 面 ， 我 们 将 更 详细 地 考察 神经 元 的 工作 ， 并 将 
其 在 数学 上 抽象 化 。 





整理 神经 元 的 工作 
人 的 大 脑 是 由 多 个 神经 元 互相 连接 形成 网 络 而 构成 的 。 也 就 是 说 ， 
一 个 神经 元 从 其 他 神经 元 接收 信号 ， 也 向 其 他 神经 元 发 出 信和 号。 大脑 就 
是 根据 这 个 网 络 上 的 信号 的 流动 来 处 理 各 种 各 样 的 信息 的 。 








轴 突 。。 / 突 触 





和 一 


神经 元 示意 图 











神经 元 细胞 体 、 轴 突 、 树 突 等 构成 。 树 突 是 从 其 他 神经 元 接收 信号 的 突起 。 轴 
突 是 向 其 他 神经 元 发 送信 号 的 突起 。 由 树 突 接收 的 电信 号 在 细胞 体 中 进行 处 理 之 后 ， 
通过 作为 输出 装置 的 轴 突 ， 被 输送 到 其 他 神经 元 。 另 外 ， 神 经 元 是 借助 突 触 结合 而 形 


成 网 络 的 。 




























































































让 我 们 来 更 详细 地 看 一 下 神经 元 传递 信息 的 结构 。 如 上 图 所 示 ， 神 
经 元 是 由 细胞 体 、 树 突 、 轴 突 三 个 主要 部 分 构成 的 。 其 他 神经 元 的 信号 
(输入 信号 ) 通过 树 突 传递 到 细胞 体 (也 就 是 神经 元 本 体 ) 中 ,细胞 体 把 
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从 其 他 多 个 神 经 元 传递 进来 的 输入 信号 进行 合并 加 工 ， 然 后 再 通过 轴 突 
前 端的 突 触 传递 给 别 的 神经 

那么 ， 神 色 0 合并 加 工 的 呢 ? 让 我 们 来 
看 看 它 的 构造 。 

假设 一 个 神经 元 从 其 他 多 个 神经 元 接收 了 输入 信号 ， 这 时 如 果 所 接 
收 的 信号 之 和 比较 小 ， 没 有 超过 这 个 神经 元 固有 的 边界 值 ( 称 为 赋值 )， 
这 个 神经 元 的 细胞 体 就 会 忽略 接收 到 的 信号 ， 不 做 任何 反应 。 











信号 被 输入 到 神经 元 细胞 体 判 断 信号 之 和 当 信号 之 和 小 于 阔 值 时 





注 : 对 于 生命 来 说 ， 神 经 元 忽略 微小 的 输入 信号 ， 这 是 十 分 重要 的 。 反 之 ， 如 果 神 经 元 
对 于 任何 微小 的 信号 都 变 得 兴奋 ， 神 经 系统 就 将 “情绪 不 稳定 ”。 


不 过 ， 如 果 输 入 信号 之 和 超过 神经 元 固有 的 边界 值 (也 就 是 阅 值 )， 
细胞 体 就 会 做 出 反应 ， 向 与 轴 罕 连接 的 其 他 神经 元 传递 信号 ， 这 称 为 
点 火 。 




















当 信号 之 和 大 于 阔 值 时 ， 
信号 被 输入 到 神经 元 细胞 体 判 断 信 号 之 和 进行 点 火 ， 并 向 相 邻 的 


尼 芍 香 营 学 屋 


那么 ， 点 火 时 神经 元 的 输出 信号 是 什么 样 的 呢 ? 有 趣 的 是 ， 信 和 号 的 
ee ee dpi 或 者 轴 突 连接 
着 其 他 多 个 神经 元 ， 这 个 神经 元 也 只 输出 固定 大 小 的 信号 。 点 火 的 输出 
ht 
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神经 元 工作 的 数学 表示 


让 我 们 整理 一 下 已 经 考察 过 的 神经 元 点 火 的 结构 。 





GD 来 自 其 他 多 个 神经 元 的 信号 之 和 成 为 神经 元 的 输入 。 

(ii) 如 果 这 个 信号 之 和 超过 神经 元 固有 的 阐 值 ， 则 点 火 。 

Gi 神经 元 的 输出 信号 可 以 用 数字 信号 0 和 1 来 表示 。 即 使 有 多 个 输 
出 端 ， 其 值 也 是 同一 个 。 

















下 面 让 我 们 用 数学 方式 表示 神经 元 点 火 的 结构 。 

首先 ， 我 们 用 数学 式 表 示 输 入 信号 。 由 于 输入 信和 号 是 来 自 相 邻 神经 
元 的 输出 信号 ， 所 以 根据 (iii)， 输 入 信号 也 可 以 用 “有 ”“ 无 ”两 种 信息 
表示 。 因 此 ， 用 变量 x 表示 输入 信号 时 ， 如 下 所 示 。 




















en 
有 输入 信号 : x=1 


神经 元 的 输入 信 

号 可 以 用 数字 信 

号 x=0,1 表示 。 

注 : 与 视 细胞 直接 连接 的 神经 元 等 个 别 神经 元 并 不 一 定 如 此 ， 因 为 视 细胞 的 输入 是 模拟 


信号 。 












































接 下 来 ,我 们 用 数学 式 表示 输出 信号 。 根 据 (ii)， 输 出 信号 可 以 用 表 
示 点 火 与 否 的 “有 ”“ 无 ”两 种 信息 来 表示 。 因 此 ， 用 变量 y 表示 输出 信 
号 时 ， 如 下 所 示 。 




















无 输出 信号 : y=0 
有 输出 信号 : y=1 








1-2 ”神经 元 工作 的 数学 表示 | 9 














(无 点 火 ) 有 输出 ( 有 点 火 ) 


神经 元 的 输出 信号 可 用 
数字 信号 y=0,1 表示 。 
于 中 神经 元 虽然 有 两 个 
输出 端 ， 但 其 输出 信号 


的 大 小 相同 。 





















































最 后 ， 我 们 用 数学 方式 来 表示 点 火 的 判定 条 件 。 

从 (和 (i 可 知 ， 神 经 元 点 火 与 否 是 根据 来 自 其 他 神经 元 的 输入 信 
号 的 和 来 判定 的 ， 但 这 个 求 和 的 方式 应 该 不 是 简单 的 求 和 。 例 如 在 网 球 
比赛 中 ， 对 于 来 自视 觉 神经 的 信号 和 来 自 听 觉 神经 的 信号 ， 大 脑 是 通过 
改变 权重 来 处 理 的 。 因 此 ， 神 经 元 的 输入 信号 应 该 是 考虑 了 权重 的 信号 
之 和 。 用 数学 语言 来 表示 的 话 ， 例 如 ， 来 自 相 邻 神经 元 1、2、3 的 输入 
信号 分 别 为 x;、x,、x3， 则 神经 元 的 输入 信号 之 和 可 以 如 下 表示 。 


























WX + WX, + WX (1) 








式 中 的 Wis Wyos Wa 是 输入 信号 Xl1、 X22、X3 对 应 的 权重 ( weight 5 











来 自 神经 元 1 的 信号 xi 










































































权重 
wi 
来 自 神经 元 2 的 信号 x， 对 于 来 自 其 他 神经 元 的 输入 
2 位 时 泪 经 革 净 
权重 w 言 号 x1/、Xx2、Xxsa， 神 经 元 将 
其 乘 以 权重 wi1、w,、ws 作 
来 自 神经 元 3 的 信号 xs [权重 W3 为 输入 信号 ， 如 式 (1) 所 示 。 





























根据 (ii)， 神 经 元 在 信号 之 和 超过 阐 值 时 点 火 ， 不 超过 立 值 时 不 点 
火 。 于 是 ， 利 用 式 (1)， 点 火 条 件 可 以 如 下 表示 。 














无 输出 信号 (y=0): wx +wx,+wX <0 
输出 信号 (y=D: wx+wX% +wX 0 © 











这 里 ,9 是 该 神经 元 固有 的 阔 值 。 
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来 自 两 个 神经 元 1、2 的 输入 信号 分 别 为 变量 XI、x,， 权 重 为 wi、 
WwW， 神经 元 的 闽 值 为 6。 当 wi=5，Ww=3，0=4 时 ， 考察 信号 之 和 wix 
+ wx 的 值 与 表示 点 火 与 否 的 输出 信号 y 的 值 。 














0 0 5x0+3x0=0<4 无 0 
0 1 5x0+3x1=3<4 无 0 
1 0 5xl+3x0=5 宇 4 有 1 
1 1 5xl1+3x1=8 宇 4 有 1 




















下 面 我 们 将 表示 点 火 条 件 的 式 (2) 图 形 化 。 以 神经 元 的 输入 信号 之 和 
为 横 轴 ， 神 经 元 的 输出 信号 y 为 纵 轴 ， 将 式 (2) 用 图 形 表示 出 来 。 如 下 图 
所 示 ， 当 信号 之 和 小 于 0 时 , y 取 值 0， 反 之 y 取 值 1。 





将 点 火 条 件 图 形 化 。 
横 轴 表示 信号 之 和 


WI1X1 十 W2X2 + W3X3o 














0 0 WIX1+ WX2 + W3X3 
如 果 用 函数 式 来 表示 这 个 图 形 ， 就 需要 用 到 下 面 的 单位 阶 跃 函数 。 


_ 10 (z<0) 
"| (z=0) 


单位 阶 路 函数 的 图 形 如 下 所 示 。 
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单位 阶 跃 函数 y = ulz) 








利用 单位 阶 路 函数 wz)， 式 (2) 可 以 用 一 个 式 子 表示 如 下 。 





点 火 的 式 子 : y=uwix +wx, +wxs—0) 

















通过 下 表 可 以 确认 式 (3) 和 式 (2) 是 一 样 的 。 














了 WiX1 + WoXo + WaxXa Z= WX1 + WoXo + waxa—0 ul(z) 
0 (无 点 火 ) 小 于 0 2 <0 0 
1 (点 火 ) 大 于 等 于 0 z 宇 0 1 




















此 外 ,该 表 中 的 z( 式 (3) 的 阶 路 函数 的 参数 ) 的 表达 式 


Zz=WA+WX, +WX—0 (4) 


称 为 该 神经 元 的 加 权 输 入 。 


es ED wi + waro+ warsa= 0 的 处 理 
的 文献 会 像 下 面 这 样 处 理 式 (2) 的 不 等 号 。 




















无 输出 信号 (y=0): wx +wx,+wx0 
有 输出 信号 (y=D: wx+wX%+wX>0 











在 生物 上 这 也 许 是 很 大 的 差异 ， 不 过 对 于 接 下 来 的 讨论 而 言 是 没有 问题 
为 我 们 的 主角 是 Sigmoid 函数 ， 所 以 不 会 发 生 这 样 的 问题 。 


















































党 
省 
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属 恒 ”激活 函数 : 将 神经 元 的 工作 一 般 化 





1-2 节 中 用 数学 式 表 示 了 神经 元 的 工作 。 本 节 我 们 试 着 将 其 在 数学 
上 一 般 化 。 


简化 神经 元 的 图 形 
为 了 更 接近 神经 元 的 形象 ，1-2 节 中 将 神经 元 表示 为 了 下 图 的 


























输入 x 
权重 wi 阅 值 0 
神经 元 的 示意 图 (3 个 
输入 ze 
人 输入 、2 个 输出 的 情 
Wa > "Hy》 况 )。 轴 突 分 贫 为 两 个 输 
输入 x3 权重 ws 出 端 ， 其 输出 值 相同 。 
































然而 ， 为 了 画 出 网 络 ， 需 要 画 很 多 的 神经 元 ， 在 这 种 情况 下 上 面 那 







































































样 的 图 就 不 合适 了 。 因 此 ， 我 们 使 用 如 下 所 示 的 简化 图 ， 这 样 很 容易 就 
能 夯 出 大 量 的 神经 元 。 
输入 Xl 权重 
2 该 图 是 神经 元 的 简化 图 。 
输入 2 一 一 > 输出 y 箭头 方向 区 分 输入 和 输出 。 
人 神经 元 的 输出 由 两 个 箭头 指 
阔 值 9 出 ， 其 值 是 相同 的 。 














为 了 与 生物 学 的 神经 元 区 分 开 来 ， 我 们 把 经 过 这 样 简化 、 抽 象 化 的 
神经 元 称 为 神经 单元 ( unit )。 
注 : 很 多 文献 直接 称 为 “神经 元 "。 本 书 为 了 与 生物 学 术语 “神经 元 ”区 分 ， 使 用 “ 神 
经 单元 ”这 个 称呼 。 另 外 ， 也 有 文献 将 “神经 单元 ” 称 为 “人 工 神经 元 "， 但 是 由 于 
现在 也 存在 生物 上 的 人 工 神经 元 ， 所 以 本 书 中 也 不 使 用 “人 工 神经 元 ”这 个 称呼。 
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将 神经 元 的 示意 图 抽象 化 之 后 ， 对 于 输出 信和 号， 我 们 也 对 其 生物 上 
的 限制 进行 一 般 化 。 
根据 点 火 与 否 ， 生 物 学 上 的 神经 元 的 输出 y 分 别 取 值 1 和 0 (下 图 )。 


无 输出 ( 无 点 火 ) 有 输出 ( 有 点 火 ) 


hj 


点 火 与 否 用 


. 六 1 和 0 表示 。 


然而 ， 如 果 除 去 “生物 ”这 个 条 件 ， 这 个 “0 和 1 的 限制 ”也 应 该 是 
可 以 解除 的 。 这 时 表示 点 火 与 否 的 下 式 (1-2 节 式 (3) ) 就 需要 修正 。 
































点 火 的 式 子 : y=u(wxi +wx,+wxs—0) (1) 


这 里 ,wu 是 单位 阶 路 函数。 我 们 将 该 式 一 般 化 ， 如 下 所 示 。 








y=a(WX +wx, + wx —0) (2) 





这 里 的 函数 a 是 建 模 者 定义 的 函数 ， 称 为 激活 函数 (activation function )。 
xi、2、 六 3 是 模型 允许 的 任意 数值 , 》 是 函数 a 能 取 到 的 任意 数值 。 这 个 
式 (2) 就 是 今后 所 讲 的 神经 网 络 的 出 发 点 。 
注 : 虽然 式 (2) 只 考虑 了 3 个 输入 ， 但 这 是 很 容易 推广 的 。 另 外 ， 式 (1) 使 用 的 单位 阶 

跃 函数 ulz) 在 数学 上 也 是 激活 函数 的 一 种 。 


请 注意 ， 式 (2) 的 输出 > 的 取 值 并 不 限于 0 和 1， 对 此 并 没有 简单 的 
解释 。 一 定 要 用 生物 学 来 比喻 的 话 ， 可 以 考虑 神经 单元 的 “兴奋 度 ”“ 反 
应 度 ”“ 活 性 度 ”。 

我 们 来 总 结 一 下 神经 元 和 神经 单元 的 不 同 点 ， 如 下 表 所 示 。 
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输出 值 y 0 或 1 模型 允许 的 任意 数值 
激活 函数 单位 阶 跃 函数 | 由 分 析 者 给 出 ， 其 中 著名 的 是 Sigmoid 函数 ( 后 述 ) 
输出 的 解释 点 火 与 否 神经 单元 的 兴奋 度 、 反 应 度 、 活 性 度 
输出 值 只 有 0 和 1 输出 可 以 是 任意 数值 
输入 za _ 
+ 重 输入 x 、 权重 
w 阔 值 0 二 输出 y 
X2 LA we 年 音 
输入 一 - 输出 y i 任意 数值 
权重 只 有 0 和 1| 。 输入" 阅 值 6 
输入 x3 7 二 Ww3 
yp 
1 y=a(x) 
Sigmoid 函数 等 
> 
0 Zz 
激活 函数 激活 函数 


将 神经 元 点 火 的 式 (1) 一 般 化 为 神经 单元 的 激活 函数 式 (2)， 要 确认 
这 样 做 是 否 有 效 ， 就 要 看 实际 做 出 的 模型 能 否 很 好 地 解释 现实 的 数据 。 
实际 上 ， 式 (2) 表示 的 模型 在 很 多 模式 识别 问题 中 取得 了 很 好 的 效果 。 


激活 函数 的 代表 性 例子 是 Sigmoid 函数 o(z)， 其 定义 如 下 所 示 。 
0) = (e=2.718281...) (3) 


关于 这 个 函数 ， 我 们 会 在 后 面 详细 讨论 (2-1 节 ) 这 里 先 来 看 看 它 的 
图 形 ，Sigmoid 函数 o(z) 的 输出 值 是 大 于 0 小 于 1 的 任意 值 。 此 外 ， 该 函数 
连续 、 光 滑 ， 也 就 是 说 可 导 。 这 两 种 性 质 使 得 Sigmoid 函数 很 容易 处 理 。 
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fy=0(z) 
































右 图 是 激活 函数 的 代表 性 例子 Sigmoid 函数 olz) 的 图 形 。 除 了 原点 附近 的 部 分 ， 其 余 
部 分 与 单位 阶 跃 函数 ( 左 图 ) 相似 。Sigmoid 函数 具有 处 处 可 导 的 性 质 ， 很 容易 处 理 


to 






























































单位 阶 跃 函数 的 输出 值 为 1 或 0， 表 示 点 火 与 否 。 然 而 ，Sigmoid 函 
数 的 输出 值 大 于 0 小 于 1， 这 就 有 点 难以 解 秋 了。 如果 用 生物 学 术语 来 解 




















人 
释 的 话 ， 如 上 文中 的 表格 所 示 ， 可 以 认为 输出 值 表示 神经 单元 的 兴奋 
等 。 输 出 值 接近 1 表示 兴奋 度 高 ， 接 近 0 则 表示 兴奋 度 低 。 





二 


之 












































| 六 二 o (7) 
输入 x .权重 117=°® 
输入 x 一 > 神经 
ws 二 元 / 输出 y 
输入 x; 、 输入 xs 
阅 值 0 辣 值 0 站 
名 
神经 单元 的 兴奋 度 小 神经 单元 的 兴奋 度 大 



































本 书 中 将 Sigmoid 函数 作为 标准 激活 函数 使 用 ， 因 为 它 具有 容易 
计算 的 漂亮 性 质 。 如 果 用 数学 上 单调 递增 的 可 导 函 数 来 代替 ， 其 原理 也 
是 一 样 的 。 











偏 置 
再 来 看 一 下 激活 函数 的 式 (2)。 
y=a(Wx +wx, TWO —0) (2) 


这 里 的 0 称 为 浆 值 ， 在 生物 学 上 是 表现 神经 元 特性 的 值 。 从 直观 上 讨 
表示 神经 元 的 感受 能 








F, 0 
力 ， 如 果 6 值 较 大 ， 则 神经 元 不 容易 兴奋 ( 感觉 迟 
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钝 )， 而 如 果 值 较 小 ， 则 神经 元 容易 兴奋 ( 敏感 )。 
然而 , 式 (2) 中 只 有 0 带 有 负 号 ， 这 看 起 来 不 漂亮 。 数 学 不 喜欢 不 漂亮 的 
东西 。 另 外 ， 负 号 具有 容易 导致 计算 错误 的 缺点 ， 因 此 ,我 们 将 -0 替换 为 bp。 





了 =Qa(OwD0 +wx, + wx 十 D) 








(4) 


经 过 这 样 处 理 ， 式 子 变 漂亮 了 ， 也 不 容易 发 生计 算 错 误 。 这 个 5b 称 


为 偏 置 ( bias )。 


输入 xi a 


输入 一 一 一 > 输出 y 


W3 


输入 x3 Eee 








偏 置 5 


本 书 将 式 (4) 作为 标准 使 用 。 男 外 ， 此 时 的 加 权 输 入 z(1-2 节 ) 妇 








输入 xi xs、xs， 权 重 
wi、w2、wa， 偏 置 b， 
以 及 输出 y 在 式 (4) 中 
联系 了 起 来 。 











z=WA+WX, + WX +b 


式 (4) 和 式 (5) 是 今后 所 讲 的 神经 网 络 的 出 发 点 ， 非 常 重要 。 





0 下 所 示 。 


(5) 


另外 ， 生 物 上 的 权重 wl、w,、w; 和 闽 值 0( =-2) 都 不 是 负数 ， 
为 负数 在 自然 现象 中 实际 上 是 不 会 出 现 的 。 然 而 ， 在 将 神经 元 一 般 化 的 











神经 单元 中 ， 是 允许 出 现 负 数 的 。 


NE re A ES A 


右 图 是 一 个 神经 单元 。 如 图 所 
示 ， 输 入 x 的 对 应 权重 是 2， 输 入 x 




















的 对 应 权重 是 3， 偏 置 是 -~ 1。 根据 下 
表 给 出 的 输入 ， 求 出 加 权 输 入 z 和 输 输入 元 Ph 
出 y。 注 意 这 里 的 激活 函数 是 Sigmoid 
困 数 。 
输入 xi 输入 x。 加 权 输 入 xz 输出 y 





0.2 0.1 





0.6 0.5 
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解 结果 如 下 表 所 示 ( 式 (3) 中 的 e 取 e= 2.7 进行 计算 )。 




















' ' 
1 1 
1 1 
1 1 
1! | 输入 xi 输入 x。 加 权 输 入 输出 y ! 
1 1 
' 0.2 0.1 2x0.2+3x0.1-1=-0.3 0.43 ' 
1 1 
| 0.6 0.5 2x0.6+3x05-1=1.7 0.84 
1 1 











CSS 全 改 气 式 (5) 
我 们 将 式 (5) 像 下 面 这 样 整理 一 下 。 
B= On de Ve | (6) 
这 里 增加 了 一 个 虚拟 的 输入 ， 可 输入 1 





























以 理解 为 以 常数 1 作为 输入 值 ( 右 图 )。 ~ 
于 是 ， 加 权 输 入 z 可 以 看 作 下 面 。 输入 * 








两 个 向 量 的 内 积 。 TN 输出 y 
W3 


(wi, WwW, Wi, b) (Xi, Wm, XW， 1) 输入 总 0 





计算 机 擅长 内 积 的 计算 ， 因 此 按照 这 种 解释 ， 计 算 就 变 容易 了 。 
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什么 是 神经 网 络 





神经 网 络 作为 本 书 的 主题 ， 它 究竟 是 什么 样 的 呢 ? 下 面 让 我 们 来 看 
一 下 其 概要 。 





神经 网 络 


上 一 节 我 们 考察 了 神经 单元 ， 它 是 神经 元 的 模型 化 。 那 么 ,既然 大 
脑 是 由 神经 元 构成 的 网 络 ， 如 果 我 们 模仿 着 创建 神经 单元 的 网 络 ， 是 不 
是 也 能 产生 某 种 “智能 ” 呢 ? 这 自然 是 让 人 期 竺 的。 众所周知 ， 人 们 的 
期 待 没有 被 训 负 ， 由 神经 单元 组 成 的 网 络 在 人 工 智能 领域 硕果 累累 。 

在 进入 神经 网 络 的 话题 之 前 ， 我 们 先 来 回顾 一 下 上 一 节 考 察 过 的 神 
经 单元 的 功能 。 








' 将 神经 单元 的 多 个 输入 zz … 癌 整理 为 加 权 输入 z。 


Z=WA+tWX + + wx +b 


其 中 wi, ws,…, w, 为 权重 ,5 为 偏 置 ，n 为 输入 的 个 数 。 
* 神经 单元 通过 激活 函数 a(z)， 根据 加 权 输 入 z 输出 y。 





输入 x 权重 
































Ew 神经 单元 具有 如 上 总 结 的 
AR 运算 功能 。 另 外 ， 即 使 有 
偏 置 。 多 个 输出 ， 其 值 也 相同 。 


























将 这 样 的 神经 单元 连接 为 网 络 状 ， 就 形成 了 神经 网 络 。 
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网 络 的 连接 方法 多 种 多 样 ， 本 书 将 主要 考察 作为 基础 的 阶层 型 神经 
网 络 以 及 由 其 发 展 而 来 的 卷 积 神经 网 络 。 
注 : 为 了 与 生物 学 上 表示 神经 系统 的 神经 网 络 区 分 开 来 ， 有 的 文献 使 用 “人 工 神经 网 络 " 
这 个 称呼 。 本 书 中 为 了 简便 ， 省 略 了 “人 工 ” 二 字 。 



























































神经 网 络 各 层 的 职责 


阶层 型 神经 网 络 如 下 图 所 示 ， 按 照 层 ( layer ) 划分 神经 单元 ， 通 过 
这 些 神 经 单元 处 理 信号 ， 并 从 输出 层 得 到 结果 ， 如 下 图 所 示 。 
































输入 层 隐藏 层 ( 中 间 层 ) 输出 层 





CD 阶层 型 神经 网 络 的 示例 。 
除了 阶层 型 以 外 ， 还 有 


“互相 连接 型 ”等 各 种 类 
型 的 网 络 。 














构成 这 个 网 络 的 各 层 称 为 输入 层 、 隐 藏 层 、 输 出 层 ， 其 中 隐藏 层 也 
被 称 为 中 间 层 。 

各 层 分 别 执行 特定 的 信号 处 理 操作 。 

输入 层 负责 读 取 给 予 神经 网 络 的 信息 。 属 于 这 个 层 的 神经 单元 没有 
输入 箭头 ， 它 们 是 简单 的 神经 单元 ， 只 是 将 从 数据 得 到 的 值 原样 输出 。 

隐藏 层 的 神经 单元 执行 前 面 所 复习 过 的 处 理 操 作 (1) 和 (2)。 在 神经 
网 络 中 ， 这 是 实际 处 理 信 息 的 部 分 。 

输出 层 与 隐藏 层 一 样 执行 信息 处 理 操作 (1) 和 (2)， 并 显示 神经 网 络 
计算 出 的 结果 ， 也 就 是 整个 神经 网 络 的 输出 。 
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深度 学 习 ， 顾 名 思 义 ， 是 琶 加 了 很 多 层 的 神经 网 络 。 受 加 层 有 各 种 
各 样 的 方法 ， 其 中 著名 的 是 卷 积 神经 网 络 (第 5 章 )。 





从 现在 开始 一 直到 第 4 章 ， 我 们 都 将 围绕 着 下 面 这 个 简单 的 例子 来 
考察 神经 网 络 的 结构 。 


和 


' 建立 一 个 神经 网 络 ， 用 来 识别 通过 4 x3 像素 的 图 像 读 取 的 手写 
' 数字 0 和 1。 学 习 数据 是 64 张 图 像 ， 其 中 像素 是 单 色 二 值 。 


和 


解 我 们 来 示范 一 下 这 个 回国 如 何 解 答 。 











输入 层 隐藏 层 。” 输出 层 





输入 各 个 像素 














作为 回国 解答 的 神经 网 
络 示 例 。 这 个 示例 将 手 
写 数字 1 作为 单 色 二 值 
图 像 读 入 。 








这 个 解答 是 演示 实际 的 神经 网 络 如 何 发 挥 功能 的 最 简单 的 神经 网 络 
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示例 ， 但 对 于 理解 本 质 已 经 足够 了 。 该 思路 也 同样 适用 于 复杂 的 情况 。 
注 : 贺 国 的 解答 有 很 多 种 ， 并 不 仅 限 于 这 一 示例 。 

这 个 简单 的 神经 网 络 的 特征 是 ， 前 一 层 的 神经 单元 与 下 一 层 的 所 有 
神经 单元 都 有 箭头 连接 ， 这 样 的 层 构造 称 为 全 连接 层 (fully connected 
layer )。 这 种 形状 对 于 计算 机 的 计算 而 言 是 十 分 容易 的 。 

下 面 让 我 们 来 简单 地 看 一 下 各 层 的 含义 。 


输入 层 由 12 个 神经 单元 构成 ， 对 此 我 们 立刻 就 能 够 理解 ， 因 为 神经 
网 络 一 共 需 要 读 取 4 x 3 = 12 个 像素 信息 。 




















输入 层 








输入 层 的 神经 单元 总 数 为 
1 X1s X22 12 为 图 
像 数 据 的 12 个 像素 的 值 。 





4 x3 像素 


输入 层 的 神经 单元 的 输入 与 输出 是 相同 的 。 一 定 要 引入 激活 函数 a(z) 
的 话 ， 可 以 用 恒 等 函 数 ( a(z) =z ) 来 充当 。 


输出 层 由 两 个 神经 单元 构成 ， 这 是 因为 我 们 的 题目 是 识别 两 种 手写 
数字 0 和 1， 需要 一 个 在 读 取 手 写 数字 0 时 输出 较 大 值 ( 即 反 应 较 大 ) 的 
神经 单元 ， 以 及 一 个 在 读 取 手 写 数字 1 时 输出 较 大 值 的 神经 单元 。 

例如 ， 将 Sigmoid 函数 作为 激活 函数 使 用 。 在 这 种 情况 下 ， 读 取 数 字 
0 的 图 像 时 ， 输 出 层 上 方 的 神经 单元 的 输出 值 比 下 方 的 神经 单元 的 输出 值 
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大 ; 而 读 取 数字 1 的 图 像 时 ， 输 出 层 下 方 的 神经 单元 的 输出 值 比 上 方 的 神 
经 单元 的 输出 值 大 ， 如 下 图 所 示 。 像 这 样 ， 根 据 输出 层 的 神经 单元 的 输 








出 的 大 小 ， 对 整个 神经 网 络 进行 判断 。 









































四 像 输出 层 
( 对 数字 0 的 反应 ) 
( 〇 一 > 输出 接近 1 的 值 
= 
( 〇 一 > 输出 接近 0 的 值 
( 对 数字 1 的 反应 ) 
0 的 图 像 
解答 示例 中 隐藏 层 的 含义 

















输出 层 


























( 对 数字 0 的 反应 ) 
( 〇 一 > 输出 接近 0 的 值 





( 〇 一 > 输出 接近 1 的 值 
( 对 数字 1 的 反应 ) 


隐藏 层 具有 提取 输入 图 像 的 特征 的 作用 。 然 而 ， 隐 藏 层 为 何 能 够 提 
取 输 入 图 像 的 特征 呢 ? 这 不 是 一 个 简单 的 话题 。 另 外 ， 在 这 个 解答 示例 





























中 ， 隐 藏 层 为 何 是 1 层 而 不 是 2 层 ? 为 何 是 由 3 个 神经 单元 构成 而 不 是 5 
个 ?想必 读者 会 涌现 出 诸多 疑问 。 为 了 解决 这 些 疑 问 ， 就 需要 理解 下 一 


节 所 讲 的 神经 网 络 的 结构 。 


de GE 于 建 立 神经 网 络 的 经 验 谈 








在 上 面 的 四周 中 ， 也 可 以 考虑 将 输出 层 的 神经 单元 整合 为 一 个 ， 以 其 输 














的 解答 示例 相 比 理论 上 哪 一 个 更 好 ， 这 在 





在 用 计算 机 进行 计算 时 ， 对 于 两 个 字 的 识别 ， 使 用 两 个 神经 单元 的 


结构 比较 简单 ， 识 别 也 容易 进行 。 





E 数 学 上 无 法 判断 。 根 据 现 











出 接近 0 或 接近 1 来 区 分 输入 数字 0 和 1。 要 说 该 方法 与 采用 两 个 神经 单元 


的 经 验 ， 














神经 网 络 
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用 恶魔 来 讲解 神经 网 络 的 结构 





上 一 节 我 们 概述 了 神经 网 络 的 ， 但 没有 具体 介绍 其 中 最 难 的 隐藏 层 。 
这 是 因为 隐藏 层 肩负 着 特征 提取 (feature extraction ) 的 重要 职责 ， 需 要 
很 长 的 篇 幅 来 介绍 。 本 节 我 们 就 来 好 好 看 一 下 隐藏 层 。 





重要 的 隐藏 层 


如 上 一 节 考 察 过 的 那样 ， 神 经 网 络 是 将 神经 单元 部 署 成 网 络 状 而 形 
成 的 。 然 而 ， 将 神经 单元 胡乱 地 连接 起 来 并 不 能 得 到 有 用 的 神经 网 络 ， 
因此 需要 设计 者 的 预 佑 ， 这 种 预 佑 对 于 隐藏 层 是 特别 重要 的 。 因 为 支撑 
整个 神经 网 络 工 作 的 就 是 这 个 隐藏 层 。 下 面 让 我 们 利用 上 一 节 考 察 过 的 
回国 ， 来 逐渐 展开 有 关 隐 蕊 层 的 具体 话题 。 


i 

















' 数字 0 和 1。 学 习 数 据 是 64 张 图 像 ， 其 中 像素 是 单 色 二 值 。 


有 





前 面 已 经 提 到 过 ， 模 式 识别 的 难点 在 于 答案 不 标准 ， 这 个 回国 也 体 
现 了 这 样 的 特性 。 即 使 是 区 区 一 个 4x3 像素 的 二 值 图 像 ， 所 读 入 的 手写 
数字 0 和 1 的 像素 模式 也 是 多 种 多 样 的 。 例 如 ， 下 列 图 像 可 以 认为 是 读 
入 了 手写 数字 0。 


日 日 要 














— 


F 写 数字 0 的 图 








象 。 
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对 于 这 样 的 数字 0， 即 使 人 能 设法 识别 出 来 ， 让 计算 机 来 判断 也 十 分 
困难 。 


思路 : 由 神经 单元 之 间 的 关系 强度 给 出 答案 


对 于 这 种 没有 标准 答案 、 识 别 困难 的 问题 ， 怎 么 解决 才 好 呢 ? 思路 
就 是 “由 网 络 进 行 判 断 "。 乍 一 听 会 觉得 这 个 方法 不 可 思议 ， 不 过 其 中 的 
逻辑 却 一 点 都 不 难 ， 我 们 可 以 用 恶魔 组 织 的 信息 网 络 来 做 比喻 。 虽 然 这 
个 比喻 并 不 算 准 确 ， 但 是 可 以 突出 其 本 质 。 

假设 有 一 个 如 下 图 所 示 的 恶魔 组 织 ， 隐 藏 层 住 着 3 个 隐藏 恶魔 和 A、 
B、C， 输 出 层 住 着 2 个 输出 恶魔 0 和 1。 输 入 层 有 12 个 手下 中 一 @ 为 隐 
藏 恶魔 A、B、C 服务 。 

注 : 这 里 将 生物 学 中 的 特征 提取 细胞 的 工作 抽象 化 为 3 个 恶魔 A、B、C。 




































































~ 








输出 层 











隐藏 














最 下 层 (输入 层 ) 的 12 个 手下 分 别 住 在 4x3 像素 图 像 的 各 个 像素 
上 ， 其 工作 是 如 果 像 素 信号 为 OFF ( 值 为 0 ) 就 处 于 休眠 状态 ; 如 果 像 素 
言 号 为 ON ( 值 为 1) 则 变 得 兴奋 ， 并 将 兴奋 度 信 息 传递 给 他 们 的 主人 隐 
藏 恶魔 A、B 、C。 
注 : 即便 不 是 黑白 二 值 像素 的 情况 ， 处 理 方式 也 是 相同 的 。 
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住 在 各 个 像素 之 上 
的 12 个 手下 ， 每 个 
人 读 入 上 Na 
的 像素 信息 ， 信 号 
为 ON 就 变 得 兴奋 









































住 在 隐藏 层 的 3 个 隐藏 恶魔 ， 从 下 层 〈 输 入 层 ) 的 12 个 手下 那里 获 
得 兴奋 度 信 息 。 接 着 ， 将 获得 的 信息 进行 整合 ， 根 据 其 值 的 大 小 ， 自 己 
也 变 兴奋 ， 并 将 这 个 兴奋 度 传递 给 住 在 上 层 的 输出 恶魔 。 

不 过 ， 隐 藏 恶魔 A、B 、C 有 不 同 的 喜好 。 他 们 分 别 喜 欢 下 图 所 示 的 
模式 A、 模 式 B、 模 式 C 的 图 案 。 这 个 性 质 影响 了 神经 网 络 的 特性 。( 看 
清 他 们 的 不 同 “ 偏 好 ”， 就 是 我 们 最 初 所 提 及 的 设计 者 的 预 估 。 ) 


胃 


图 隐藏 
C7 
模式 A 模式 B 模式 C A 
























































住 在 最 上 层 的 2 个 输出 恶魔 也 是 从 住 在 下 层 的 3 个 隐藏 恶魔 那里 得 
到 兴奋 度 信息 。 与 隐藏 恶魔 一 样 ， 他 们 将 得 到 的 兴奋 度 信 息 进 行 整 合 
根据 其 值 的 大 小 ， 自 己 也 变 兴奋 。 然 后 ， 这 些 答 出 恶魔 的 兴奋 度 就 成 为 
整个 恶魔 组 织 的 意向 。 如 果 输 出 恶魔 0 的 兴奋 度 比 输出 恶魔 1 的 兴奋 度 
大 ， 神 经 网 络 就 判定 图 像 的 数字 为 0， 反之 则 判定 为 1。 







































































输出 层 
中 云 











输出 恶魔 0 输出 恶魔 1 
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可 见 ， 恶 魔 的 世界 里 也 存在 着 人 际 关 系 。 

隐藏 恶魔 A、B、C 对 模式 有 着 各 自 的 偏好 ， 与 12 个 手下 有 不 同 的 
交情 。 隐 藏 恶魔 A 的 偏好 是 之 前 的 模式 A， 因 此 与 @@、Q@ 性 情 相 投 。 
为 模式 A 的 4 号 像素 与 7 号 像素 是 ON， 所 以 理所当然 地 与 对 应 的 看 守 人 


、Q 中 性 情 相 投 。 
(省 隐藏 恶魔 A 喜欢 


模式 A， 因 此 与 
隐藏 恶魔 A ”手下 中、 性 情 
相投 。 


























同样 地 ， 手下、@ 与 隐藏 恶魔 B， 手 下 @、@ 与 隐藏 恶魔 C 性 情 
相投 ， 因 此 他 们 之 间 传 递 兴 奋 度 的 管道 也 变 粗 了 (下 图 )。 








隐藏 恶魔 A 隐藏 恶魔 B 隐藏 恶魔 C 











隐藏 层 























粗 线 表 示 性 情 相 投 。 

















住 在 隐藏 层 的 隐藏 恶魔 A、B、C 与 住 在 上 层 的 2 个 输出 恶魔 也 有 着 
人 际 关系 。 由 于 某 种 占 绊 ， 输 出 恶魔 0 与 隐藏 恶魔 A、C 性 情 相 投 ， 而 输 
出 恶魔 1 与 隐藏 恶魔 B 性 情 相 投 。 
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与 之 前 的 图 一 
样 ， 粗 线 表示 
性 情 相投 。 





























以 上 就 是 恶魔 组 织 的 所 有 人 际 关系 。 除 了 隐藏 恶魔 A、B 、C 有 不 一 
样 的 偏好 以 外 ， 这 是 一 个 人 类 社会 中 到 处 都 可 能 存在 的 简单 的 组 织 。 
那么 ， 这 里 让 我 们 读 入 手写 数字 0。 








数字 0 的 模式 。 


于 是 ， 作 为 像素 看 守 人 的 手下 由 、CD 和 手下 @、(@9 看 到 这 个 图 像 就 
变 得 非常 兴奋 了 (下 图 )。 





由、W、@、@ 兴 奋起 来 了 | 

















这 时 ， 兴 奋 的 手下 多 、Q@ 向 性 情 相 投 的 隐藏 恶魔 A 传递 了 较 强 的 兴 
度 信 息 ， 兴 奋 的 手下 @、@ 也 向 性 情 相投 的 隐藏 恶魔 C 传递 了 较 强 的 兴 
息 


中 


a ™ 


度 信息 。 相 对 地 ， 几 乎 没有 手下 向 隐藏 恶魔 B 传递 兴奋 度 信 息 ( 下 图 )。 
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接收 了 来 自 手下 的 兴奋 度 信息 的 隐藏 恶魔 们 会 怎样 呢 ? 接收 了 较 强 的 兴 


奋 度 信息 的 隐藏 恶魔 A 和 隐藏 恶魔 C 自然 也 变 兴 奋 了 。 另 一 方面 ， 隐 藏 恶魔 


B 变 得 怎样 呢 ? 因为 几乎 没有 从 手下 接收 到 兴奋 度 信息 ， 所 以 一 直 保持 冷静 。 















































当 奉 冷静 尖 在 








隐藏 恶魔 A、C 
隐藏 恶魔 A 隐藏 恶魔 B 隐藏 恶魔 C ”兴奋 ，B 冷静 。 





EE 


住 在 最 上 层 的 输出 恶魔 变 得 怎样 了 呢 ? 输出 恶魔 0 由 于 与 兴奋 的 隐藏 亚 
魔 A、C 关系 亲密 ， 从 而 获得 了 较 强 的 兴奋 度 信息 ， 所 以 自己 也 兴奋 起 来 了 。 
相对 地 ， 输 出 恶魔 1 与 隐藏 恶魔 A、C 关系 踊 远 ， 而 与 之 关系 亲密 的 隐藏 恶魔 
B 一直 保持 冷静 ， 所 以 输出 恶魔 1 没有 获得 兴奋 度 信息 ， 因 此 也 保持 冷静 。 


















































恶魔 之 间 的 关系 导 
致 “输出 恶魔 0 兴 
奋 ， 输 出 恶魔 1 冷 
静 ” 这 样 的 状态 。 
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这 样 一 来 ， 读 取 手 写 数字 0 的 图 像 后 ， 根 据 恶魔 之 间 的 连锁 关系 ， 
最 终 得 到 了 “输出 恶魔 0 兴奋 ， 输 出 恶魔 1 冷静 ”的 结果 。 根 据 前 文中 
的 “如 果 输 出 恶魔 0 的 兴奋 度 比 输出 恶魔 1 的 兴奋 度 大 ， 神 经 网 络 就 判 
断 图 像 的 数字 为 0”， 亚 魔 的 网 络 推导 出 了 0 这 个 解答 。 



























































判定 数字 为 0 
l 
输出 层 兴奋 令 静 
输出 恶魔 0 输出 恶魔 1 ”恶魔 的 网 络 成 








功 地 推导 出 了 
0 这 个 解答 。 


恶魔 的 心 的 偏 置 


在 这 个 恶魔 组 织 中 ， 下 层 的 兴奋 度 会 或 多 或 少 地 传递 到 上 层 。 但 是 ， 
除了 具有 亲密 关系 的 各 层 之 间 传 递 的 兴奋 度 信息 以 外 ， 还 遗漏 了 少量 信 
息 ， 就 是 “噪声 "。 如 果 这 些 噪 声 迷 住 了 恶魔 的 心 ， 就 会 导致 无 法 正确 地 
传递 兴奋 度 信息 。 因 此 ， 这 就 需要 减少 噪声 的 功能 。 对 于 恶魔 组 织 的 情 
形 ， 我 们 就 将 这 个 功能 称 为 “ 心 的 偏 置 ” 吧 ! 具体 来 说 ,将 偏 置 放 在 恶 
魔 的 心中 ， 以 忽略 少量 的 噪声 。 这 个 “ 心 的 偏 置 ”是 各 个 恶魔 固有 的 值 
(也 就 是 个 性 )。 
























































从 关系 中 得 到 信息 


像 上 面 那 样 ， 亚 魔 组 织 实 现 了 手写 数字 的 模式 识别 。 我 们 应 该 关注 
到 ， 是 恶魔 之 间 的 关系 〈 也 就 是 交情 ) 和 各 个 恶魔 的 个 性 ( 也 就 是 心 的 
偏 置 ) 协力 合作 推导 出 了 答案 。 也 就 是 说 ， 网 络 作为 一 个 整体 做 出 了 
判断 。 
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恶魔 


| 辣 国 在 图 中 示范 一 下 在 读 取 数字 1 的 图 像 时 ， 恶 魔 组 
麻 与 下 层 恶 魔 之 间 交 情 的 好 坏 来 


区 
/DA 








判定 数字 为 1 
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判断 图 像 中 的 数字 是 1。 下 图 就 是 解答 。 沿 着 下 图 的 粗 线 ， 


解 在 这 种 情况 下 ， 也 能 够 根据 上 层 3 
兴奋 起 来 ， 判 断 出 图 像 中 的 数字 是 1。 


是 
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将 恶魔 的 工作 翻译 为 神经 网 络 的 语言 








上 一 节 我 们 通过 恶魔 讲解 了 神经 网 络 的 结构 。 本 节 我 们 将 恶魔 的 工 
作用 神经 网 络 的 语言 来 描述 。 





恶魔 之 间 的 “交情 ”表示 权重 


上 一 节 考 察 了 恶魔 组 织 识别 手写 数字 0、1 的 结构 。 将 这 个 组 织 替换 
为 神经 网 络 ， 我 们 就 能 理解 神经 单元 发 挥 良好 的 团队 精神 进行 模式 识别 
的 结构 。 

首先 ， 将 恶魔 看 作 神 经 单元 。 隐 藏 层 住 着 3 个 隐藏 恶魔 A、B 、C， 
可 以 解释 为 隐藏 屋 有 3 个 神经 单元 A、B、C。 输 出 层 住 着 2 个 输出 恶魔 
0、1， 可 以 解释 为 输出 层 有 2 个 神经 单元 0、1。 此 外 ,输入 层 住 着 12 个 
恶魔 的 手下 ， 可 以 解释 为 输入 层 有 12 个 神经 单元 (下 图 )。 



































输入 层 
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接 下 来 ， 将 恶魔 的 “交情 ”看 作 神 经 单元 的 权重 。 隐 藏 恶魔 A 与 手 
下 由 、@ 性 情 相投 ， 这 样 的 关系 可 以 认为 是 从 输入 层 神经 单元 中、CD 指 
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向 隐藏 层 神经 单元 A 的 箭头 的 权重 较 大 。 同 样 地 ， 隐 藏 恶魔 B 与 手下 @)、 
@ 性 情 相投 ， 可 以 认为 是 从 输入 层 神 经 单元 BD)、(@ 指 向 隐藏 层 神经 单元 B 
的 箭头 的 权重 较 大 。 隐 藏 恶魔 C 与 手下 @、@ 性 情 相 投 ， 可 以 认为 是 从 
输入 层 神经 单元 @O、@ 指 向 隐藏 层 神经 单元 C 的 箭头 的 权重 较 大 。 
































输入 层 隐藏 


加 | 








粗 线 表示 权重 较 大 。 





注 : 关于 权重 ， 请 参考 1-2 节 、1-3 节 。 

隐藏 恶魔 A、C 与 上 层 的 输出 恶魔 0 性 情 相 投 ， 这 个 关系 表示 从 隐藏 
层 神经 单元 A、C 指向 输出 层 神经 单元 0 的 箭头 的 权重 较 大 。 同 样 地 ， 隐 
藏 恶魔 B 与 输出 恶魔 1 性 情 相 投 ， 这 个 关系 表示 从 隐藏 层 神经 单元 B 指 
向 输出 层 神经 单元 1 的 箭头 的 权重 较 大 。 
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这 样 解释 的 话 ， 神 经 网 络 读 和 人 手写 数字 0 时 ， 神 经 单元 A 和 C 的 输 
出 值 较 大 ， 和 输出 层 神 经 单元 0 的 输出 值 较 大 。 于 是 ， 根 据 神 经 网 络 整体 
的 关系 ， 最 终 识 别 出 数 字 0。 








输入 层 隐藏 








加 | 
声 
Ll 

加 | 








根据 神经 单元 的 关系 能 够 识别 出 数字 。 








在 像 这 个 神经 网 络 那样 前 一 层 与 下 一 层 全 连接 的 情况 下 ， 在 输入 0 
的 图 像 时 ， 原 本 不 希望 做 出 反应 的 隐藏 层 神 经 单元 B 以 及 输出 层 神经 单 
元 1 也 有 信号 传递 ， 因 此 需要 禁止 这 样 的 信号 并 使 信号 变 清晰 ， 这 样 的 
功能 就 是 偏 置 ， 在 恶魔 组 织 中 表现 为 “ 心 的 偏 置 ”。 

如 上 所 述 ， 权重 和 偏 置 的 协力 合作 使 得 图 像 识 别 成 为 可 能 。 这 就 
“由 神经 网 络 中 的 关系 得 出 答案 ”的 思想 。 
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模型 的 合理 性 
如 上 所 述 ， 我 们 将 上 一 节 考 察 过 的 恶魔 的 工作 翻译 为 了 神经 网 络 的 
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权重 与 偏 置 但 不 要 认为 这 样 就 万 事 大 吉 了 。 即 使 将 恶魔 的 活动 转换 为 
了 神经 网 络 ， 也 无 法 保证 可 以 求 出 能 够 实现 恶魔 的 工作 的 权重 和 偏 置 。 
而 如 果 能 够 实际 建立 基于 这 个 想法 的 神经 网 络 ， 并 能 够 充分 地 解释 所 给 
出 的 数据 ， 就 能 够 验证 以 上 话题 的 合理 性 。 这 需要 数学 计算 ， 必 须 将 语 
言 描述 转换 为 数学 式 。 为 此 ， 我 们 会 在 第 2 章 进 行 一 些 准备 工作 ， 并 从 
第 3 章 开始 进行 实际 的 计算 。 









































恶魔 的 人 数 
住 在 输出 层 的 输出 恶魔 的 人 数 是 2 人 。 为 了 判断 图 像 中 的 数字 是 0 
还 是 1，2 人 是 合适 的 。 


住 在 隐藏 层 的 隐藏 恶魔 的 人 数 是 3 人 。 为 什么 是 3 人 呢 ? 如 本 节 开 















































头 所 讲 的 那样 ， 这 是 由 于 存在 某 种 预 估 ， 如 下 图 所 示 。 
0 的 特征 1 的 特征 0 的 特征 











模式 A 模式 B 模式 C 


Se 


存在 这 样 的 预 估 : 医 

像 中 的 手写 数字 是 0 

还 是 1， 可 以 通过 是 

否 包 含 模 式 A、B、C 
数字 0 


数字 1 来 判断 。 









































根据 该 图 可 以 预 佑 数字 0 包含 了 图 中 的 模式 A 和 C， 数 字 1 包含 了 
模式 B。 因 此 ， 只 要 准备 好 对 上 图 的 模式 A、B、C 做 出 反应 的 神经 单 
元 ， 就 能 够 判断 图 像 中 的 数字 是 0 还 是 1。 这 3 个 神经 单元 正 是 隐藏 恶魔 
A、B、C 的 本 来 面目 。 

上 一 节 中 为 隐藏 恶魔 A、B 、C 设 定 分 别 喜欢 模式 A、B、C 的 特征 ， 
也 是 出 于 这 个 原因 。 
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以 上 是 在 隐藏 层 部 署 3 个 神经 单元 的 理由 。 通 过 让 这 个 神经 网 络 实 
际 读 取 图 像 数据 并 得 出 令 人 信服 的 结论 ， 可 以 确认 这 个 预 估 的 正确 性 。 
关于 具体 的 确认 方法 ， 我 们 将 在 第 3 章 考 察 。 
































神经 网 络 与 生物 的 类 比 


让 我 们 从 生物 的 观点 来 看 神经 网 络 。 

请 想象 一 下 生物 看 东西 时 的 情形 。 可 以 认为 ， 输 入 层 神 经 单元 相当 
于 视 细 胞 ， 隐 藏 层 神经 单元 相当 于 视神经 细胞 ， 输 出 层 神经 单元 相当 于 
负责 判断 的 大 脑 神经 细胞 群 。 

不 过 ， 相 当 于 隐藏 层 神经 单元 的 视神经 细胞 实际 上 存在 吗 ? 例如 ， 
第 一 个 神经 单元 对 前 面 图 中 的 模式 A 做 出 反应 ， 像 这 样 的 视神经 细胞 存 
在 吗 ? 

实际 上 ，1958 年 美国 生理 学 家 大 卫 … 休 伯 和 尔 (David Hunter Hubel ) 
和 托 斯 坦 . 威 泽 尔 (Torsten Wiesel ) 发 现存 在 这 种 细胞 ， 这 种 细胞 被 命 
名 为 特征 提取 细胞 。 对 某 种 模式 做 出 强烈 反应 的 视神经 细胞 有 助 于 动物 
的 模式 识别 。 想 到 本 节 考 察 的 “恶魔 ”在 大 脑 中 实际 存在 ， 这 真是 非常 
有 意思 的 事情 。 





















































oop son 二 给 人 工 智 能 研究 中 的 几 次 热潮 
人 工 智 能 的 研究 大 约 是 从 20 世纪 50 年 代 开 始 的 ， 其 发 展 史 与 计算 机 的 
发 展 史 有 所 重合 ， 可 以 划分 为 以 下 3 次 热潮 。 
































3 主要 应 用 领域 
20 世 纪 50 ~ 60 年 代 逻辑 为 了 智力 游戏 等 











20 世 纪 80 年 代 机 器 人 、 机 天 翻译 
2010 年 至 今 7 模式 识别 、 语 音 识别 
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1 ”网络 自学 习 的 神经 网 络 





在 前 面 的 1-5 节 和 1-6 节 中 ， 我 们 利用 恶魔 这 个 角色 ， 考 察 了 识别 
输入 图 像 的 机 制 。 具 体 来 说 ， 就 是 根据 恶魔 组 织 中 的 关系 来 判断 。 不 过 ， 
之 前 的 讲解 中 事先 假定 了 权重 的 大 小 ， 也 就 是 假定 了 各 层 恶 魔 之 间 的 人 
际 关系 。 那 么 ， 这 个 权重 的 大 小 〈 亚 魔 的 关系 ) 是 如 何 确定 的 呢 ? 神经 
网 络 中 比较 重要 的 一 点 就 是 利用 网 络 自学 习 算法 来 确定 权重 大 小 。 












































从 数学 角度 看 神经 网 络 的 学 习 


神经 网 络 的 参数 确定 方法 分 为 有 监督 学 习 和 无 监督 学 习 。 本 书 只 介 
绍 有 监督 学 习 。 有 监督 学 习 是 指 ， 为 了 确定 神经 网 络 的 权重 和 偏 置 ， 事 
先 给 予 数据 ， 这 些 数据 称 为 学 习 数 据 。 根 据 给 定 的 学 习 数 据 确定 权重 和 
偏 置 ， 称 为 学 习 。 
注 : 学 习 数 据 也 称 为 训练 数据 。 

那么 ， 神 经 网 络 是 怎样 学 习 的 呢 ? 思路 极其 简单 : 计算 神经 网 络 得 出 
的 预测 值 与 正解 的 误差 ， 确 定 使 得 误差 总 和 达到 最 小 的 权重 和 偏 置 。 这 
在 数学 上 称 为 模型 的 最 优化 (下 图 )。 

关于 预测 值 与 正解 的 误差 总 和 ， 有 各 种 各 样 的 定义 。 本 书 采 用 的 
是 最 古典 的 定义 : 针对 全 部 学 习 数 据 ， 计 算 预 测 值 与 正解 的 误差 的 平 
方 〈 称 为 平方 误差 )， 然 后 再 相 加 。 这 个 误差 的 总 和 称 为 代价 函数 (cost 
function )， 用 符号 Cr 表示 (了 是 Total 的 首 字 母 )。 

利用 平方 误差 确定 参数 的 方法 在 数学 上 称 为 最 小 二 乘法 ， 它 在 统计 
学 中 是 回归 分 析 的 常规 手段 。 
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学 习 数据 
神经 网 络 平方 误差 正解 
学 习 实例 1 昼 和 
人 c=( 正解 1 预测 信 1 < 一 | 0 | 
学 习 实例 2 由 目 C=( 正 解 2- 预 济 信 2 < 一 | 0 | 




















7 “eao 一 
算出 预测 什 


误差 总 和 ( 代价 函数 Cr) =Ci+ C++ 十 Cr+ 


























最 优化 是 指 确定 使 得 误差 总 和 最 小 的 参数 的 方法 。 








我 们 将 在 2-12 节 以 回归 分 析 为 例 来 具体 考察 什么 是 最 小 二 乘法 。 

另外 ,本 书 以 手写 数字 的 模式 识别 为 例 进行 说 明 。 因 此 ， 学 习 数 据 
是 图 像 数 据 ， 学 习 实 例 是 图 像 实 例 。 

需要 注意 的 是 ， 神 经 网 络 的 权重 是 允许 出 现 负 数 的 ， 但 在 用 生物 学 
进行 类 比 时 不 会 出 现 负数 ， 也 难以 将 负数 作为 神经 传递 物质 的 量 。 可 以 
看 出 ， 神 经 网 络 从 生物 那里 得 到 局 发 ， 又 飞跃 到 了 与 生物 世界 不 同 的 兄 
一 个 世界 。 























es 全 一 奇 点 
奇 点 ( singularity ) 被 用 来 表示 人 工 智 能 超过 人 类 智能 的 时 间 点 。 据 预测 





是 2045 年 ， 也 有 不 少 人 预测 这 个 时 间 点 会 更 早 到 来 。 








神经 网 络 的 数学 基础 


本 章 我 们 ; 


千 梳 理 一 下 神 

















经 网 络 所 需 的 数学 基础 知识 ， 其 吕 








大 多 数 内 容 没 


超出 高 











所 学 范 








卉 ， 





大 





此 读 起 来 不 会 吃力 。 
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神经 网 络 所 需 的 函数 





本 市 我 们 来 看 一 下 神经 网 络 世 界 中 频繁 出 现 的 函数 。 虽 然 它们 都 是 
基本 的 函数 ， 但 是 对 于 神经 网 络 是 不 可 缺少 的 。 


一 次 函数 


在 数学 函数 中 最 基本 、 最 重要 的 就 是 一 次 函数 。 它 在 神经 网 络 的 世 
界 里 也 同样 重要 。 这 个 函数 可 以 用 下 式 表示 。 





y=ax+b (aa、D 为 常数 ，a 基 0) (1) 


a 称 为 斜率 ，b 称 为 截 距 。 
当 两 个 变量 x、y 满足 式 (1) 的 关系 时 ， 称 变量 y 和 变量 x 是 一 次 函数 
一 次 函数 的 图 像 如 下 图 的 直线 所 示 。 




















函数 y=ax+b 的 图 
像 为 直线 。 

















四 加 一 次 函数 y=2x+1 的 图 像 如 右 图 所 示 ， 
截 距 为 1， 和 斜率 为 2。 
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以 上 是 一 个 自 变 量 的 情形 。 这 个 一 次 也 数 关 系 也 同样 适用 于 多 个 自 
谈 量 的 情形 。 例 如 ， 有 两 个 变量 x;、x,， 当 它们 满足 下 式 的 关系 时 ， 称 y 
和 xl、x 是 一 次 函数 关系 。 











y=ax+Dbx, +cC (a、b、cC 为 常数 ，a 冯 0，Db 冯 0) 


我 们 将 会 在 后 面 讲 到 ， 在 神经 网 络 中 ， 神 经 单元 的 加 权 输 入 可 以 表 
示 为 一 次 函数 关系 。 例 如 ， 神 经 单元 有 三 个 来 自 下 层 的 输入 ， 其 加 权 输 
入 z 的 式 子 如 下 所 示 (1-3 节 )。 











Zz=WA+WX, + WX +b 




















| 

















如 果 把 作为 参数 的 权重 wl、w,、w; 与 偏 置 b 看 作 常 数 ， 那 么 加 权 输 
入 z 和 x、xy、x3 是 一 次 函数 关系 。 另 外 ， 在 神经 单元 的 输入 xz 、z 、73 
作为 数据 值 确定 了 的 情况 下 ， 加 权 输 入 z 和 权重 wj、w 、vw3 以 及 偏 置 5 
是 一 次 函数 关系 。 用 误差 反 向 传播 法 推导 计算 式 时 ， 这 些 一 次 函数 关系 
使 得 计算 可 以 简单 地 进行 。 


r----------------------------------------------------' 


加 同日 作 出 一 次 函数 y= -2x- 1 的 图 像 。 


























解 如 右 图 所 示 ， 截 中 是 - 1， 斜率 是 -2。 








De [备注 自立 量 
两 个 变量 x 和 y， 如 果 对 每 个 x 都 有 唯一 确定 的 y 与 它 对 应 ， 则 称 是 
x 的 函数 ， 用 y=f x) 表示。 此 时 ， 称 x 为 自 变 量 , y 为 因 变 量 。 
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在 数学 函数 中 ， 二 次 函数 与 一 次 函数 同样 重要 。 本 书 中 的 代价 函数 
使 用 了 二 次 函数 。 二 次 函数 由 下 式 表示 。 





y=ax +bx+c (gd、b、c 为 常数 , az0) (2) 





二 次 函数 的 图 像 是 把 物体 抛 出 去 时 物体 所 经 
过 的 轨迹 ， 也 就 是 抛物 线 ( 右 图 )。 这 个 图 像 中 
重要 的 一 点 是 ,a 为 正 数 时 图 像 向 下 凸 ， 从 而 存 
在 最 小 值 。 这 个 性 质 是 后 面 讲 到 的 最 小 二 乘法 的 
基础 。 








二 次 函数 y= (x 一 1》+2 的 图 像 如 右 图 所 示 。 
从 图 像 中 可 以 看 到 ， 当 x= 1 时， 隐 数 取得 最 小 
值 2。 





以 上 考察 了 一 个 自 变 量 的 情形 。 这 里 考察 的 
性 质 在 推广 到 多 个 自 变 量 的 情形 时 也 是 不 变 的 。 olr 
例如 ， 有 两 个 自 变量 zx 、z: 时 ， 称 下 面 的 函数 为 
关于 xi、z2 的 二 次 函数 。 





y=ax? TD 二 cx + px + qx +r (3) 
这 里 ，a、b、c、p、g、r 为 常数 , qa 郑 0, c 冯 0。 

对 于 有 两 个 以 上 的 自 变量 的 情形 ， 就 难以 在 
纸 面 上 画 出 图 像 了 。 例 如 ， 只 能 像 右 图 那样 画 出 
式 (3) 的 图 像 。 

















实际 的 神经 网 络 需要 处 理 更 多 变量 的 二 次 函数 。 不 过 ， 记 住 这 里 
考察 的 二 次 函数 的 图 像 后 ， 在 理解 多 变量 的 情形 时 应 该 不 难 。 
注 : 式 @) 所 示 的 图 像 并 不 仅 限于 上 图 所 示 的 抛物 面 。 
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i oh, es) de ein er i ee te ee et 





' 匡 本 如 试 作出 二 次 函数 y = 2x? 的 图 像 。 
| | / 
， 解 图 像 如 右 图 所 示 。 中 





神经 网 络 的 原型 模型 是 用 单位 阶 跃 函数 作为 激活 函数 的 (1-2 节 )， 


它 的 图 像 如 下 所 示 。 



































Pe 
19—————— 
单位 阶 跃 函数 的 图 像 。 在 应 用 数 
= ”学 的 世界 里 ， 这 个 函数 活跃 于 线 
. 性 响应 理论 之 中 。 





我 们 用 式 子 来 表示 单位 阶 跃 函数。 


fo (<0) 
Wn) = C0) 人 


从 这 个 式 子 我 们 可 以 知道 ， 单 位 阶 路 函数 在 原点 处 不 连续 ， 也 就 是 在 原 
点 不 可 导 。 由 于 这 个 不 可 导 的 性 质 ， 单 位 阶 跃 函 数 不 能 成 为 主要 的 激活 函数 。 


六 训 二 /站 /总 总 ) 疝 本 画 二 二 二 二 二 司 辣 司 本 局 本 忆 忆 局 司 司 二: 司 避 辣 / 辣 ;可 [总 : 辣 , 剖 下: 癌症: 司 | 本 | 本 | 辣 后 忆 局/ 忆 ' 辣 二 总: 避 i 色 晤 二 


在 单位 阶 跃 函数 u(x) 中 ， 求 下 面 的 值 。 
Du-l) @ul) ©@u0) 


解答 案 依 次 为 0、1、1。 


DE] 
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具有 以 下 形状 的 函数 称 为 指数 函数 。 
y=a”(a 为 正 的 常数 ，a 关 DD 
常数 a 称 为 指数 函数 的 底数 。 纳 皮尔 数 e 是 一 个 特别 重要 的 底数 ， 其 近似 值 如 下 。 
e=2.71828 ... 
这 个 指数 函数 包含 在 以 下 的 Sigmoid 函数 o(x) 的 分 母 中 。Sigmoid 也 
数 是 神经 网 络 中 具有 代表 性 的 激活 函数 (1-3 节 )。 


1 1 
l+e™ 


注 : exp 是 exponential function ( 指数 函数 ) 的 简略 记 法 ，expt) 表示 指数 函数 er。 








o(x)= (5) 


1+exp(—x) 


11»=00) 





这 个 函数 的 图 像 如 右 图 所 示 。 可 

以 看 出 ， 这 个 函数 是 光滑 的 ， 也 就 是 

处 处 可 导 。 函 数 的 取 值 在 0 和 1 之 间 ， 

因此 函数 值 可 以 用 概率 来 解释 。 -5 0 本 
Sigmoid 函数 的 图 像 。 


二 


在 Sigmoid 函数 cCo 中 ， 求 以 下 函数 值 的 近似 值 。 
Do(-1) ol0)  Q@) 


























解 取 e=2.7 作 为 近似 值 ， 答 案 依次 为 0.27、0.5、0.73。 


pe 


用 计算 机 实际 确定 神经 网 络 时 ， 必 须 设 定 权重 和 偏 置 的 初始 值 。 求 
初始 值 时 ， 正 态 分 布 ( normal distribution ) 是 一 个 有 用 的 工具 。 使 用 服从 
这 个 分 布 的 随机 数 ， 容 易 取得 好 的 结果 。 

正 态 分 布 是 服从 以 下 概率 密度 函数 f(x) 的 概率 分 布 。 
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1 CA 
= 2c2 6 
f(x) a (6) 





其 中 常数 jy 称 为 期 望 值 (平均 值 )，o 称 为 标准 差 。 它 的 图 像 如 下 图 所 示 ， 
由 于 形状 像 教 堂 的 钟 ， 所 以 称 为 钟 形 曲 线 。 


TAG 








期 望 值 为 4， 标 准 差 为 c 
的 正 态 分 布 。 另 外 ， 这 个 
0 与 Sigmoid 函数 名 c 的 
含义 不 同 。 























r----------------------------------------------------1 

















X=0, o=1 的 正 态 分 布 概 




















按照 正 态 分 布 产 生 的 随机 数 称 为 正 态 分 布 随机 数 。 在 神经 网 络 的 计 
算 中 ， 经 常用 到 正 态 分 布 随机 数 作为 初始 值 。 





es Excel 中 的 正 态 分 布 随机 数 
在 Excel 中 ， 可 以 像 下 面 这 样 产 生 正 态 分 布 随 机 数 。 











= NORM.INV(RAND(), pw, o) ( 人 、c 是 期 望 值 和 标准 差 ) 
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有 助 于 理解 神经 网 络 的 数列 
和 递 推 关系 式 











熟悉 了 数列 和 递 推 关系 式 之 后 ， 就 很 容易 理解 误差 反 向 传播 法 (第 4 
章 、 第 5 章 ) 的 内 容 了 。 因 此 ， 下 面 我 们 通过 简单 的 例子 来 回顾 一 下 。 

熟悉 递 推 关系 式 ， 对 于 用 计算 机 进行 实际 计算 有 很 大 的 帮助 。 这 是 
因为 计算 机 不 擅长 导数 计算 ， 但 擅长 处 理 递 推 关系 式 。 









































数列 的 含义 
数列 是 数 的 序列 。 以 下 是 被 称 为 偶数 列 的 数列 。 


2, 4, 0,8,10… 


数列 中 的 每 一 个 数 称 为 项 。 排 在 第 一 位 的 项 称 为 首 项 ， 排 在 第 二 位 
的 项 称 为 第 2 项 ， 排 在 第 3 位 的 项 称 为 第 3 项 ， 以 此 类 推 ， 排 在 第 n 位 
的 项 称 为 第 项。 在 上 面 的 四 冉 中 ， 首 项 为 2, 第 2 项 为 4。 

在 神经 网 络 的 世界 中 出 现 的 数列 是 有 限 项 的 数列 。 这 样 的 数列 称 为 
有 穷 数 列 。 在 有 穷 数 列 中 ， 数 列 的 最 后 一 项 称 为 末 项 。 

















考察 以 下 有 穷 数 列 的 例子 : 
1,3,5,7,9 


这 个 数列 的 首 项 为 1， 末 项 为 9， 项 数 为 5。 


数列 的 通 项 公式 


数列 中 排 在 第 位 的 数 通 常用 a 表示 ， 这 里 a 是 数列 的 名 字 (数列 
名 a 是 随意 取 的 ， 通常 用 一 个 拉丁 字母 或 希腊 字母 来 表示 )。 当 想 要 表示 
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整个 数列 时 ， 我 们 使 用 集合 的 符号 {a,} 来 表示 。 

将 数列 的 第 n 项 用 一 个 关于 n 的 式 子 表示 出 来 ， 这 个 式 子 就 称 为 该 
数列 的 通 项 公式 。 例 如 ， 的 数列 的 第 n 项 能 够 用 如 下 关于 的 式 子 
写 出 来 ， 这 就 是 它 的 通 项 公式 。 








并 站 区 


回 志 加 试 求 以 下 数列 {5,} 的 通 项 公式 。 


L333 739 ls 


解 通 项 公式 b, =2n 一 1。 

在 神经 网 络 中 ， 神 经 单元 的 加 权 输 入 及 其 输出 可 以 看 成 数列 (1-3 
节 )， 因 为 可 以 像 “ 第 几 层 的 第 几 个 神经 单元 的 数值 是 多 少 ” 这 样 按 顺序 
来 确定 值 。 因 此 ， 我 们 用 类 似 数列 的 符号 来 表示 值 ， 如 下 例 所 示 。 





a’ 表示 第 1 层 的 第 j 个 神经 单元 的 输出 值 。 





数列 与 递 推 关系 式 


通 项 公式 就 是 表示 数列 的 项 的 式 子 。 除 此 之 外 数列 还 存在 男 一 种 重要 的 
表示 法 ， 就 是 用 相 邻 项 的 关系 式 来 表示 ， 这 种 表示 法 称 为 数列 的 递归 定义 。 

一 般 地 ， 如 果 已 知 首 项 w 以 及 相 邻 两 项 a,、a ,1 的 关系 式 ， 就 可 以 
确定 这 个 数列 ， 这 个 关系 式 称 为 递 推 关系 式 。 


























已 知 首 项 a=1 以 及 关系 式 a ;1=4+2， 可 以 确定 以 下 数列 ， 这 个 
关系 式 就 是 数列 的 递 推 关 系 式 。 

















a =], a,=a=a+2=1+2=3, a;=a, =4,+2=3+2=5, 








da = =4;+2=5+2=7,……: 
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42 +2 +2 +2 
给 出 NN 1+2 "™ 3+2 NN 5+2 Qu-1 NN 2 各 NN 
| 中 1 1 二 未: 
3 5 2 2 
al Q2 QG3 Q4 dn n+l 
递 推 关系 式 可 以 形象 地 表示 为 多 米 诺 骨 牌 。 数 列 由 首 项 以 及 前 后 项 的 关系 ( 也 就 是 递 推 关 















































系 式 ) 确定 。 此 外 ， 


医 





中 的 数列 表示 匡 加 各 的 数列 








[e) 








已 知 首 项 ct = 3 以 及 递 推 关系 式 6 ,1 = 2c,， 求 这 个 数列 {6,} 的 前 4 项 。 


























C=3, c¢,=c =20c =2:3=6, c,=c,, =2c, =2:6=12, 
C4 = C61 =2:12=24, …… 
这 样 ， 这 个 数列 就 确定 了 。 



























































x x2 
od Nd Ne Ne WN el NN 
6 12 24 
数列 由 首 项 以 及 递 推 关 系 式 c, ,1 = 2c, 确定 。 
辐 电 癌 请 递归 地 定义 以 下 数列 {a,}。 
(这 是 加 加 的 数列 ) 


| 2, 4, 6, 8, 10, … 


解 a =2， d+1= 4,+2o 


TO 


联 立 递 推 关 系 式 
我 们 来 看 看 下 钙 





j 的 例子 。 











求 由 以 下 两 个 递 推 关系 式 定义 的 数列 的 前 3 项 ， 





其 


>~ 





w= ls 
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& 三 和 十 20. 寺 2 
D =2a, +3b, +1 


n+l 


可 以 像 下 面 这 样 依次 计算 数列 的 值 4,、b,。 








Qa, = +2b +2=1+2:1+2=5 
J +3 +1=2.1+3.1+1=6 
as=a,+2b, +2=5+2:6+2=19 
1 1=29 























像 这 样 ， 将 多 个 数列 的 递 推 关系 式 联合 起 来 组 成 一 组 ， 称 为 联 立 递 
推 关系 式 。 在 神经 网 络 的 世界 中 ， 所 有 神经 单元 的 输入 和 输出 在 数学 上 
都 可 以 认为 是 用 联 立 递 推 式 联系 起 来 的 。 例 如 ， 我 们 来 看 看 1-4 节 的 
问 辐 中 考察 过 的 神经 网 络 的 一 部 分 ， 如 下 图 所 示 。 


隐藏 层 ( 层 2 ) 输出 层 ( 层 3) 





























我 们 在 第 1 章 考察 过 的 神 
经 网 络 示例 的 一 部 分 。 此 
外 ， 有 关 变 量 名 的 内 容 将 
在 3-1 节 详 述 。 























在 箭头 前 端 标 记 的 是 权重 ， 神 经 单元 的 圆圈 中 标记 的 是 神经 单元 的 
输出 变量 。 于 是 ， 如 果 以 a(z) 为 激活 函数 ，b* 、 户 为 第 3 层 各 个 神经 单 
元 的 偏 置 ， 根据 1-3 节 ， 以 下 关系 式 成 立 。 








3 3 2 3 ,2 3 
a =a(Wiiar + Wid; + Wa3 +Di ) 





3 A 
0 =a(Wial + wd + Wads +b;) 


根据 这 些 关 系 式 ， 第 3 层 的 输出 qi 和 a; 由 第 2 层 的 输出 qf 、a;、 
@ 决定 。 也 就 是 说 ， 第 2 层 的 输出 与 第 3 层 的 输出 由 联 立 递 推 关系 式 联 
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系 起 来 。 第 4 章 和 第 5 章 将 要 考察 的 误差 反 向 传播 法 就 是 将 这 种 递 推 关 
系 式 的 观点 应 用 在 神经 网 络 中 。 


对 于 由 以 下 联 立 递 推 关 系 式 定义 的 数列 a,、Pb,,， 求 第 3 项 a;、 
b;, 其 中 al =2， bl=1。o 














n+l 


Wa =30, +b, 
bi =0, +3b, 









































解 可 以 像 下 面 这 样 依次 进行 计算 。 
a =3a +h =3:2+1=7 
b,=@ +3b =2+3:1+1=5 
0 =3a, +b, =3:7+5=26 
b=a,+3b,=7+3.:5=22 
ss E83 计算 机 擅长 递 推 关 系 式 


计算 机 擅长 关系 式 的 计算 。 
例如 ， 我 们 来 看 一 下 阶乘 的 计算 。 自 然 数 的 阶乘 是 从 1 到 nn 的 整数 的 
乘积 ， 用 符号 n! 表示 。 




















六 办 让 和 77 





在 多 数 情况 下 ， 人 们 是 根据 上 面 的 式 子 来 计算 2! 的 ， 而 计算 机 则 通常 用 
以 下 递 推 关系 式 来 计算 。 

















ee a = | 
































后 述 的 误差 反 向 传播 法 就 是 通过 计算 机 所 擅长 的 这 一 计算 方法 来 进行 神 
经 网 络 的 计算 的 。 
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”于 恒 神经 网 络 中 经 常用 到 的 并 符号 




















2 是 一 个 需要 下 功夫 来 熟悉 的 符号 。 如 果 不 理解 2， 在 阅读 神经 网 络 
相关 的 文献 时 就 比较 麻烦 。 这 是 因为 将 加 权 输 入 用 > 符号 来 表示 会 简洁 得 
多 。 下 面 我 们 就 来 复习 一 下 这 个 2 符号。 
注 : 本 书 不 使 用 符号 来 进行 讲解 ， 因 为 玉 符 号 使 人 难以 看 到 数学 式 的 本 质 。 因 此 ， 本 
书 中 的 写法 会 变 得 宛 长 ， 不 便 之 处 还 请 读者 见谅 。 































































































之 符号 的 含义 


2 符号 可 以 简洁 地 表示 数列 的 总 和 。 除 了 表示 总 和 以 外 ， 并 没有 别 的 
含义 ， 然 而 这 样 过 于 简洁 的 表示 经 常 使 神经 网 络 的 初学 者 感到 苦恼 






































注 : 垃 为 希腊 字母 ， 读 作 Sigma， 对 应 拉丁 字母 S， 即 Sum ( 总 和 ) 的 首 字母 。 


对 于 数列 fa} ，yY 符 号 的 定义 式 如 下 所 示 。 

















以 上 用 2 符号 表示 的 和 之 中 ,字母 上 并 不 具有 实质 的 含义 。 实 际 上 ， 
在 上 式 的 右边 没有 出 现 字母 ,在 这 里 仅 用 于 表明 关于 它 求 和 。 因 此 ， 这 
个 字母 并 非 必须 是 大， 在 数学 上 通常 用 六 广 kk 1、m、n。 





5 
Da =a ta ta ta tas 


n=l1 
村 

Da Ey pe CE Se 平 7 
k=1 


BE 》2 =2 +2 +2 +..+2" 
i=] 
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@ 过 符号 的 性 质 
2 符号 具有 线性 性 质 。 这 是 与 微 积分 共通 的 性 质 ， 可 以 在 式 子 变形 中 使 用 。 











> +b,)= >“ + Yb Dea -ca 〈《c 为 常数 ) 


k=1 大 =1 





注 : 用 语言 来 表述 的 话 ， 就 是 “和 的 卫 为 并 的 和 ” ea o 这 与 导数 公 
式 “ 和 的 导数 为 导数 的 和 ” “常数 倍 的 导数 为 导数 的 常数 倍 ” 是 一 致 的 (2-6 节 )。 




















证 明 | 


到 





根据 2 符号 的 定义 ， 有 





y tb)=(a +b)+(a, +b,)+:…+(a, +b,) 
=(a +a,+*…+a,)+(b +b,+:…+b,) 











nn 
方 0 = CQl +ca, 十 … 十 CO =c(a + a, :+ “+t,)=cD 人 
大 =1 














下 面 我 们 通过 例子 来 验证 式 ( 卫 )。 


yl 


=2(1+2+3+.+N)+(+1+1l+.…+])=2> .Kk+ >1 








emot ,ed tn ed pe tt ot td, Ce id! Cen: 0nd oe et otilieg Ui, et mn eS, ,eee ede ee esti 


| 司 到 证明 下 式 成 立 。 


> 3k+2)= 2 3y ke 


大 =1 k=1 








k=1 





=( +27 4+3 1+.+n) -3d+2+3+..…+n) 


‘和解 D 了 W342)=( -31+2) + -3.2+2)+…+(02 3n+2) | 
' ep ' 


-> -2 和 


Ce eh ne a Re a Es et i 
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有 助 于 理解 神经 网 络 的 向 量 基 础 








向 量 的 定义 为 具有 大 小 和 方向 的 量 。 这 里 我 们 主要 关注 神经 网 络 中 
用 到 的 内 容 ， 和 弄 清 向 量 的 性 质 。 





有 向 线段 与 向 量 
有 两 个 点 4、B， 我 们 考虑 从 4 指向 B 的 线段 ， 这 条 具有 方向 的 线段 
48 叫 作 有 向 线段 。 我 们 称 4 为 起 点 ，B 为 终点 。 
B( 终点 ) 
全 | 有 向 线段 


有 向 线段 48B 具有 以 下 属性 : 起 点 4 的 位 置 、 指 向 B 的 方向 ， 以 及 
48B 的 长 度 ， 也 就 是 大 小 。 在 这 3 个 属性 中 ， 把 方向 与 大 小 抽象 出 来 ， 这 
样 的 量 叫 作 向 量 ， 通 常用 箭头 表示 ， 总 结 如 下 : 








向 量 是 具有 方向 与 大 小 的 量 ， 用 箭头 表示 。 


有 向 线段 48 所 代表 的 向 量 用 4B8 表示 ， 也 可 以 用 带 箭头 的 单个 字母 
4 或 者 不 带 箭头 的 黑 斜 体 字母 a 表示 。 本 书 主要 使 用 最 后 一 种 表示 方法 。 


> 








表示 向 量 的 几 种 方法 。 
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把 向 量 的 箭头 放 在 坐标 平面 上 ， 就 可 以 用 坐标 的 形式 表示 向 量 。 把 
箭头 的 起 点 放 在 原点 ， 用 箭头 终点 的 坐标 表示 向 量 ， 这 叫 作 向 量 的 坐标 
表示 。 用 坐标 表示 的 向 量 & 如 下 所 示 (平面 的 情况 )。 


a=(a, 9) (1) 


a=(a,m) 向 量 的 坐标 表示 ， 即 把 起 点 放 
”在 原点 ， 通 过 终点 的 坐标 来 表 
a 示 。 这 应 该 不 难 理解 ， 在 应 用 




















时 想必 也 不 会 发 生 问题 。 
a = (3, 2) 表示 的 向 量 。 b=( 一 2, -1) 表示 的 向 量 。 
» PR 


























of 1 ea 


. 
























































在 三 维 空间 的 情况 下 也 是 同样 的 。 个 
例如 ，a = (1 2, 2) 表示 右 图 所 示 的 向 量 。 











图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 尊 和 





晶 版 权 


邮 
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从 直观 上 来 讲 ， 表 示 向 量 的 箭头 的 长 度 称 为 这 个 














向 量 的 大 小 。 向 量 a 的 大 小 用 |a | 表示。 4 ) 
注 : 符号 | | 是 由 数 的 绝对 值 符号 一 般 化 而 来 的 。 实 际 上 ， 数 可 | 
a 
以 看 成 一 维 向 量 。 
个 了 
四 加 根据 右 图 ， 如 下 求 得 a = (3,4) 的 大 小 |a|。 ? 
lal=V3 +4 =5 
1 > 




















在 三 维 空间 的 情况 下 也 是 同样 的 。 
例如 ， 如 下 求 得 右 图 所 示 的 向 量 a = 
(1, 2, 2) 的 大 小 | a |。 

la|=VL +2: +2? =3 


注 : 园 、 都 使 用 了 勾 股 定理 。 























和 
































' [本 到 求 右 图 所 示 的 向 量 a、5 的 大 小 。 ' 
| 二 一 -和 
' 鲁 Vz V5, ss ' 
1 p 1 
8=V32+(CD2 =VI0 





i i a i i Ud i 


我 们 在 考虑 具有 方向 的 向 量 的 乘积 时 ， 包 含 了 “方向 与 方向 的 乘积 ” 
这 样 不 明确 的 概念 。 因 此 ， 我 们 需要 一 个 新 的 定义 一 一 内 积 。 两 个 向 量 
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a、b 的 内 积 a .4b 的 定义 如 下 所 示 。 


区 
4.0=|dll2lcosO 12 1 
(8 为 @、 卫 的 夹 角 ) 全 2 


~ _ lal 





注 : 当 a、b 有 一 个 为 0 或 两 者 都 为 0 时 ， 内 积 定义 为 0。 

















加 加 考虑 边 长 为 1 的 正方 形 4BCD,，AB =a,，AD = 由， J 
AC =c， 于 是 有 
lal=|15|=1, |cl= V2 
B 村 
此 外 , a 与 a 的 夹 角 为 0%, a 与 bp 的 夹 角 为 
90°, a 与 c 的 夹 角 为 45*?， 因 此 有 
a-:a=|allalcos0° =|a] =1 =1 
a:b=|allblcos90° =1:1.:.0=0 
ee=laleleos4s"=1 V3. =! 
' 加 在 上 述 四 中 , 求 b-c。 ' 
| 1 | 
' 解 p.c=|pllec|cos45°=1.V2: 一 =1 1 
Iblle| 
在 三 维 空 间 的 情况 下 也 是 同样 的 。 
不 同 在 边 长 为 3 的 立方 体 4BCD - EFGH 中 ， 有 g 
AD.AD=| AD|| AD|cos0°=3:3.:1=9 
AD.AF =| AD|| AF |cos90° =3:3Y2.:0=0 必 
AF. AH =| AF | AH leos60°=3Y3.3Y3.>=) F ; 
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站 二 1 本 本: 妆 加 关机 站 辣 古人 











有 一 个 边 长 为 2 的 正四 面体 048C， ' 
' 求 内 积 04.08。 ， 
' 解 04 与 08 的 夹 角 为 60。， 因 此 有 人 
04.08 =|04I08|cos60°=2.2.7 =2 a y ' 


RP PP Oe ER Ee 


柯 西 - 施 瓦 茨 不 等 式 
根据 内 积 的 定义 式 (2)， 我 们 可 以 推导 出 下 式 ， 该 式 在 应 用 上 十 分 

















证 明 | 根据 余弦 函数 的 性 质 ， 对 任意 的 0, 有 - 1 < cosg 大 1， 两 边 同 时 乘 
以 |allb5|， 有 


-lallb|<|allb los < |allb| 


利用 定义 式 (2)， 我 们 可 以 得 到 式 (3)。 


让 我 们 通过 图 形 来 考察 式 (3)。 两 个 向 量 a、5b 的 大 小 固定 时 ， 有 下 图 
(1)、(2)、(3) 的 3 种 关系 。 














a a 
b 一 SN a —— 
— 万 WS ed Ed 
D0=180° ©@0<0<180° 0=0° 
(cosO= -1) (-l <cos0<1) (cosO= ]) 





根据 柯 西 - 施 瓦 茨 不 等 式 3)， 可 以 得 出 以 下 事实 。 
QD 当 两 个 向 量 方向 相反 时 ， 内 积 取得 最 小 值 。 
@) 当 两 个 向 量 不 平行 时 ， 内 积 取 平 行 时 的 中 间 值 。 
(3) 当 两 个 向 量 方向 相同 时 ， 内 积 取得 最 大 值 。 
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性 质 作 就 是 后 述 的 梯度 下 降 法 (2-10 节 以 及 第 4 章 、 第 5 章 ) 的 基 











另外 ， 可 以 认为 内 积 表示 两 个 向 量 在 多 大 程度 上 指向 相同 方向 。 如 
果 将 方向 相似 判定 为 “相似 ”， 则 两 个 向 量 相似 时 内 积 变 大 。 后 面 我 们 考 
察 卷 积 神经 网 络 时 ， 这 个 观点 就 变 得 十 分 重要 (附录 C )。 


Ea 入 ~ pa -到 


非常 不 相似 有 点 不 相似 有 点 相似 非常 相似 




















通过 内 积 可 以 知道 两 个 向 量 的 相对 的 相似 度 。 


内 积 的 坐标 表示 
































下 面 我 们 使 用 坐标 表示 的 方式 来 表示 定义 式 (2)。 在 平面 的 情况 下 ， 
下 式 成 立 。 


当 q = (aq, a,), b= (Db, b,) 时 , 


a:b=ab,+a,b, (4) 





BH 当 a = ©@,3), b = (5, 1) 时 , 


a-:b=2:5+3:1=13, a:a=2:2+3:3=13, b.:b=5:5+1:1=26 




















在 三 维 空间 的 情况 下 ， 内 积 的 坐标 表示 如 下 所 示 ， 只 是 在 平面 情况 
下 的 式 (4) 中 添加 了 = 分 量 。 





当 a= (ou aa)，D= (0 by, b3) 时 ， 


a'b = abl+ab; 二 aa3p3 


B= (bi1, bs, b;) 























注 : 这 里 我 们 省 略 了 式 (4)、(5) 的 证 明 。 此 外 ， 也 有 很 多 文献 使 用 式 (4)、(5) 作为 内 积 
的 定义 。 
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[I a=0,3,2), b=(5,1, -1) 时 , 





a.6=2.5+3.1+2.(CD=1l aa=2.2+3.3+2.2=17 
加 虽 求 以 下 两 个 向 量 &、2 的 内 积 。 
dz-=C3,2)，5=( V3) 
© a=(3, 2,1), b=(, -3, 2) 


解 根据 式 (4)、(5)， 可 得 
OD ab=2V3.1+2:V3=4V3 
© a.b=-3.:1+2:(-3)+1:2=-7 


向 量 的 一 般 化 


到 目前 为 止 ， 我们 考察 了 平面 (也 就 是 二 维 空间 ) 以 及 三 维 空间 中 
的 向 量 。 向 量 的 方便 之 处 在 于 ， 二 维 以 及 三 维 空 间 中 的 性 质 可 以 照搬 到 
任意 维 空间 中 。 神 经 网 络 虽 然 要 处 理 数 万 维 的 空间 ， 但 是 二 维 以 及 三 维 
空间 的 向 量 性 质 可 以 直接 利用 。 出 于 该 原因 ， 向 量 被 充分 应 用 在 后 述 的 
梯度 下 降 法 中 (2-10 节 以 及 第 4 章 、 第 5 章 )。 

为 了 为 后 面 做 好 准备 ， 我 们 将 目前 考察 过 的 二 维 以 及 三 维 空间 中 的 
向 量 公 式 推广 到 任意 的 维 空间 。 



















































































" 向 量 的 坐标 表示 :a = (ai, ay, …, ai) 
“ 内 积 的 坐标 表示 : 对 于 两 个 癌 量 a = (Cu ay,…, a)),，b = (bi1, bs, …,b,)， 
其 内 积 a :bb 如 下 式 所 示 。 








a:b=ablt+ab;t+ "+ab, 


: 柯 西 - 施 瓦 茨 不 等 式 : -|allb|a:b<|lallb| 





神经 单元 有 多 个 输入 zu x2,，…, x 时， 将 它们 整理 为 如 下 的 加 
权 输 入 。 


Z=WIXI+WIX2+ "+ WnXxn+b 
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其 中 ，w w,,…, w, 为 权重 ，2 为 偏 置 。 








使 用 w= (wi, Wo, 
这 两 个 向 
式 ， 如 下 所 示 。 


时 


县 





且 ， 


， w) ， X= (Cr 2， 








“ > Xi) 


我 们 可 以 将 加 权 输 入 表示 为 内 积 形 


z=w:x+b 





输入 
Xl 权重 ne 
Te 
Ww | 输入 





从 回 I 可 以 看 出 ， 在 神经 网 络 的 世界 中 ， 向 量 的 观点 是 十 分 有 益 的 。 


【 备 注 2， 








































































































































































































张 量 ( tensor ) 是 向 量 概 念 的 推广 。 谷 歌 提 供 的 人 工 智 能 学 习 系 统 
TensorFlow 的 命名 中 就 用 到 了 这 个 数学 术语 。 
“tensor” 来 源 于 “tension”( 物理 学 中 的 “张力 ”)。 向 固体 施加 张力 时 ， 
会 在 固体 的 截面 产生 力 的 作用 ， 这 个 力 称 为 应 力 。 这 个 力 在 不 同 的 截面 上 大 
小 和 方向 各 不 相同 。 
应 力 法 向 量 
法 向 量 是 垂直 于 面 的 向 量 ， 根 据 
这 个 向 量 的 方向 ( 也 就 是 法 向 )， 
应 力 的 方向 和 大 小 各 不 相同 。 
因此 ， 当 面 的 法 向 为 x、y、z 轴 时 ， 作 用 在 面 上 的 力 依次 用 向 量 表示 为 
1 712 713 
Go 2 
731 732 733 
可 以 将 它们 合并 为 以 下 的 量 。 
om a 
L903 
Ta 732 V33 


我 们 称 这 个 量 为 应 力 张 量 。 











张 量 是 应 力 张 量 在 数学 上 的 抽象 。 我 们 不 


洼 林 人 可 人 


将 人 工 智能 学 习 系 统 














命名 为 TensorFlow 的 原委 ， 不 过 在 神经 











凋 定 合 队 





























下 标的 变量 ， 这 与 张 














这 样 命名 的 吧 。 





网 络 的 世界 里 ， 经 常用 到 附带 多 个 
的 计算 相似 ， 可 能 也 是 出 于 这 个 原因 ，TensorFlow 才 
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有 助 于 理解 神经 网 络 的 和 矩阵 基础 





神经 网 络 的 文献 中 会 用 到 矩阵 (matrix )。 和 矩阵 可 以 使 数学 式 的 表示 
变 简洁 。 下 面 我 们 来 梳理 一 下 阅读 文献 时 所 需要 的 矩阵 知识 。 
注 : 本 书 从 第 3 章 以 后 的 讲解 不 需要 矩阵 的 知识 作为 前 提 。 












































外 什么 是 矩阵 
矩阵 是 数 的 阵列 ， 如 下 所 示 。 


A= 





3 1 4 
| 光 : 
2 3 
横 排 称 为 行 ， 竖 排 称 为 列 。 在 上 例 中 ,和 矩阵 由 3 行 3 列 构成 ， 称 为 3 
行 3 列 的 矩阵 。 


特别 地 ， 如 上 例 所 示 ， 行 数 与 列 数 相同 的 矩阵 称 为 方 阵 。 此 外 ， 如 
下 所 示 的 和 矩阵、 了 分 别称 为 列 向 量 、 行 向 量 ， 也 可 以 简单 地 称 为 向 量 。 








Y= (2 了 1) 








Ql 12 i 
a a a 
21 2 2 
A= 
| Un2 多 mn 





这 是 m 行 n 列 的 矩阵 。 位 于 第 i 行 第 j 列 的 值 ( 称 为 元 素 ) 用 aj 表示 。 
有 一 种 有 名 的 矩阵 称 为 单位 矩阵 ， 它 是 对 角 线 上 的 元 素 aj; 为 1、 其 
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他 元 素 为 0 的 方 阵 ， 通 常用 已 表示 。 例 如 ，2 行 2 列 、3 行 3 列 的 单位 矩 
阵 E( 称 为 2 阶 单位 矩阵 、3 阶 单位 矩阵 ) 分 别 如 下 表示 。 



































注 :E 为 德语 中 表示 1 的 单词 Ein 的 首 字母 。 





@ 矩阵 相等 
两 个 矩阵 4、B 相等 的 含义 是 它们 对 应 的 元 素 相 等 ， 记 为 4 = B。 








m4- (1 中 2 ?地 如 果 4=B, 则 x=2, y=7, u=1, v=8。 
U vy 
@ 矩阵 的 和 、 差 、 常 数 倍 
两 个 矩阵 4、B 的 和 和 A+B、 差 4-B 定 义 为 相同 位 置 的 元 素 的 和 、 
差 所 产生 的 矩阵。 此 外 ， 和 矩阵 的 常数 倍 定 义 为 各 个 元 素 的 常数 倍 所 产生 
的 和 矩阵。 我 们 通过 以 下 例子 来 理解 。 





ww {27 ff 
BE 四 当 4-|， 1 r jj 








2+2 
4+8-| i 


1 
bs | E 了 
A-B= = 
1-1 8-3 0 5 
[ | br E 2 
34=3 = 
1 8 3xl 3x8 3 24 
@ 矩阵 的 乘积 
和 矩阵 的 乘积 在 神经 网 络 的 应 用 中 特别 重要 。 对 于 两 个 矩阵 4、B， 将 


4 的 第 i 行 看 作 行 向 量 ，B 的 第 j 列 看 作 列 向 量 ， 将 它们 的 内 积 作为 第 i 
行 第 j 列 元 素 ， 由 此 而 产生 的 矩阵 就 是 矩阵 4、B 的 乘积 4B。 
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第 7 列 第 j 列 将 4 的 第 i 行 的 行 向 量 与 8 的 
| ] 第 / 列 的 列 向 量 的 内 积 作为 矩 
第 i 行 | 一 一 = 第 i 行 阵 4B 的 第 i 行 第 j 列 的 元 素 。 
和 B AB 两 个 矩阵 的 乘积 。 














请 通过 下 面 的 例子 弄 清 矩阵 乘积 的 含义 。 























1 1 3 
[: | | | ” 7 
AB= 三 = 
1 8 人 1 3 1.2+8.1 1.8+48.3 10 32 
3 | ww ed Ss 虽 
BA= 三 去 
1 3 八 1 8 1243. 1:74+38 5 31 
从 这 个 例子 中 可 以 看 出 ， 和 矩阵 的 乘法 不 满足 交换 律 。 也 就 是 说 ， 除 
了 例外 情况 ， 以 下 关系 式 成 立 。 


Ea#4- (1 中 z-|， 时 ， 











ABz BA 





而 单位 矩阵 EE 与 任意 矩阵 4 的 乘积 都 满足 以 下 交换 律 





O 


AE=EA=4 








单位 矩阵 是 具有 与 1 相同 性 质 的 矩阵 。 





@ Hadamard 乘积 
对 于 相同 形状 的 矩阵 4、 如， 将 相同 位 置 的 元 素 相 乘 ， 由 此 产生 的 矩 
阵 称 为 矩阵 4、B 的 Hadamard 乘积 ， 用 4 〇 B 表示 。 





ws {2 7) 2 8 
#4- [1 | ;外 


2:2 7:8 4 56 
AOB= = 
ll. .8:3 1 24 
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@ 转 置 和 矩阵 

将 矩阵 4 的 第 i 行 第 j 列 的 元 素 与 第 j 行 第 i 列 的 元 素 交 换 ， 由 此 产 
生 的 矩阵 称 为 矩阵 4 的 转 置 矩阵 (transposed matrix )， 用 以 、 夺 等 表示 。 
下 面 我 们 使 用 4。 


w, [27 2 1 
Wa- 7 |, 4 -| 中 























加 四 当 23= [ji 有 =( 2)。 


注 : 阅读 神经 网 络 的 文献 时 需要 注意 ， 转 置 矩 阵 有 各 种 各 样 的 表示 方法 。 























r----------------------------------------------------1 


1 41 2 a 
4- | | 5=| EE: 进行 以 下 计算 。 





DA+B OU4F @4OP 


解 D 448- ~ 4+7 = 11 ] 
1 
4 
1 





4+8 2+2 1+8) \l12 4 9 

1.2+4.8 1:7+4:2 1.1+4.8 
部 J- 4.2+2.8 4.7+2.2 4.1+2.8 
1 下 218 下 








34 15 33 
=|24 32 20 
10. 为 9 


回 4oB8- 1.2 4:7 1.1 2 28 1 
4:8 2.2 1.8 32 4 8 


OE PY EE OP 
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神经 网 络 的 导数 基础 























之 前 我 们 提 到 过 ， 神 经 网 络 会 自己 进行 学 习 ， 这 在 数学 上 的 含义 是 
指 ， 对 权重 和 偏 置 进行 最 优化 (2-12 节 )， 使 得 输出 符合 学 习 数 据 。 而 对 
于 最 优化 而 言 ， 求 导 是 不 可 缺少 的 一 种 方法 。 
注 : 本 章 所 考察 的 函数 都 是 充分 光滑 的 函数 。 








导数 的 定义 
函数 y=f(x) 的 导 函 数 f'(x) 的 定义 如 下 所 示 。 


人 /CD 


f "(x)= (1) 


























注 : 希腊 字母 A 读 作 delta， 对 应 拉丁 字母 D。 此 外 ， 带 有 '( prime ) 符号 的 函数 或 变 
量 表示 导 函 数 。 


“lim(Ax 的 式 子 )” 是 指 当 Ax 无 限 接近 0 时 “(Ax 的 式 子 )” 接近 的 值 。 














四 加 /0) = 3x 时 ， 





= lim = lim3=3 


Ar->0 Ax Ax—0 


站 3x ,3Ax 
f "(x)= 二 


四 四 当 /o = 时 ， 


(x+Ax)’ —x 
Ax 





= lim 


Arx 一 0 


2xAx +(Ax) 
Ax 


f(x)= lim 二 lim (2x + Ax)=2x 


已 知 函数 了 (x)， 求 导 函 数 f'(x)， 称 为 对 函数 f(x) 求 导 。 当 式 (1) 的 值 
存在 时 ， 称 函数 可 导 。 
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导 函 数 的 含义 如 下 图 所 示 。 作 出 函数 f(x) 的 图 像 ，7'(x) 表示 图 像 切 
线 的 斜率 。 因 此 ， 具 有 光滑 图 像 的 函数 是 可 导 的 。 








y=/(x) PO 的 斜率 
“证 +A 
Ax 
Pf < | 
; 7 的 斜率 三 CD) 


/WI . 


Ar | 
0 区 X+ Ax 

















导 逊 数 的 含义 。f'(x) 表示 图 像 切 线 的 斜率 。 实 际 上 ， 如 果 0 无 限 接近 PP ( 也 就 是 Ax 一 0 )， 
那么 直线 PO 无限 接近 切线 1。 


我 们 很 少 使 用 定义 式 (1) 来 求 导 函 数 ， 而 是 使 用 导数 公式 。 下 面 我 们 
就 来 看 一 下 在 神经 网 络 的 计算 中 使 用 的 函数 的 导数 公式 (x 为 变量 、c 为 
常数 )。 




















注 : 这 里 省 略 了 证 明 。e 为 纳 皮 尔 数 ( 2-1 节 )。 








在 式 (1) 中 ,函数 y=f(x) 的 导 函 数 用 了/'(x) 表示 ,但 也 存在 不 同 的 表 
示 方 法 ,例如 可 以 用 如 下 的 分 数 形式 来 表示 。 


(= 时 
f= 
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这 个 表示 方法 是 十 分 方便 的 ， 这 是 因为 复杂 的 函数 可 以 像 分 数 一 样 
计算 导数 。 关 于 这 一 点 ， 我 们 会 在 后 文中 说 明 。 
回国 式 C) 中 的 (C)=0， 也 可 以 记 为 学 =0 (< 为 常数 


加 回 式 CO) 中 的 (x)'=1， 也 可 以 记 为 全 =1 


利用 下 式 ， 可 导 函 数 的 世界 得 到 了 极 大 的 扩展 。 





{f (XW)+e(n) = 了 +), {of (WF = (rx) (ec 为 常数 ) (3) 





注 : 组 合 起 来 也 可 以 简单 地 表示 为 {f(x) - go0} = 了 "tw) - g'(x)。 

式 (3) 称 为 导数 的 线性 性 。 用 文字 来 表述 可 能 更 容易 记忆 ， 如 下 所 示 。 
和 的 导数 为 导数 的 和 ， 常 数 倍 的 导数 为 导数 的 常数 倍 。 
导数 的 线性 性 是 后 述 的 误差 反 向 传播 法 背后 的 主角 。 


四 目 当 Cc = C - 六 (7 为 变量 ) 时 ， 





C=(4=4y4y Y=(4) =4(y) 4+(y Y=0=442y==44+2y 
厨 吉利 对 下 面 的 函数 /oo 求 导 。 
四 FDI=2 妇 +37z+1 © f(x)=1ie™ 














解 根 据 式 (2)、 式 3)， 可 得 
@D7D=Cr)+GoO+(O'=202)+3C0'+(D'=4r+3 
@ jo0 =(+e=('+(e)=-er 


证 
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De 公式 人) = -er 

利用 后 述 的 链 式 法 则 ( 复合 函数 的 求 导 公式 ) ( 2-8 节 )， 我 们 可 以 简单 

地 推导 出 标题 中 的 公式 ( 即 式 (2) )， 如 下 所 示 。 
chy 


@", U=—X, e”:(-l e 
y a (= 























= 








分 数 函 数 的 导数 和 Sigmoid 函数 的 导数 
当 冰 数 是 分 数 形 式 时 ， 求 导 时 可 以 使 用 下 面 的 分 数 函 数 的 求 导 公式 。 





























| 1 | jn 
1) TCD (4) 
注 : 这 里 省 略 了 证 明 。 防 数 ftx) 不 取 0 值 。 


Sigmoid 函数 a(x) 是 神经 网 络 中 最 有 名 的 激活 函数 之 一 ， 其 定义 如 下 
所 示 (2-1 节 )。 























在 后 述 的 梯度 下 降 法 中 ， 需 要 对 这 个 函数 求 导 。 求 导 时 使 用 下 式 会 
十 分 方便 。 


o'(x) = 0 -0o(x)) (5) 





利用 该 式 ， 即 使 不 进行 求 导 ， 也 可 以 由 ol(x) 的 函数 值得 到 Sigmoid 
函数 的 导 函 数 的 值 。 


























| 证 明 | 将 1+e 习 代入 式 (4) 的 ftx)， 利 用 式 (2) 的 指数 函数 的 导数 公式 
(e-)'=-e-*， 可 得 
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(46 _@” 
(Il+e™ 了 (1+e 了 








C (CD) 


上 式 可 以 像 下 面 这 样 变形 。 


lt+e*-l 1 1 


Mme Ire™ Upowp Sia 








CGOD) 


将 o(x) 提取 出 来 ， 就 得 到 了 式 (5)。 





由 于 导 函 数 放 (x) 表示 切线 斜率 ， 我们 可 以 得 到 以 下 原理 ， 该 原理 在 
后 述 的 最 优化 42-12 市 ) 中 会 用 到 。 





当 函 数 ]lx) 在 x=a 处 取得 最 小 值 时 ,fa) = 0。 





证 明 | 导 函 数 .ao) 表示 切线 斜率 ， 所 以 根据 下 图 可 以 清楚 地 看 出 f(a) = 0。 











y= f(x%) 


人 和 衣 -0 当 /t) 在 x=a 处 取 最 小 值 时， 该 
+ 函数 在 该 点 的 切线 的 斜率 ( 即 导 函 
。 。 。。 数 的 值 ) 为 0。 




















应 用 时 请 记 住 以 下 事实 。 


fa) =0 是 函数 f(x) 在 x=a 人 处 取得 最 小 值 的 必要 条 件 。 


























注 : 已 知 命题 p、g， 由 p 可 以 推出 g， 则 gq 称 为 的 必要 条 件 。 


从 下 面 的 函数 y=f(x) 的 图 像 可 以 清楚 地 看 出 这 一 点 。 








图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 尊重 版 权 
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=/ 0 
个 切线 的 斜率 =0 
@) 切线 的 斜率 =0 
虽然 f(a) =0 ( 切线 
极 大 值 和 斜率 为 0， 即 切线 
极 小 值 回 最 小 值 写 x 轴 平 行 )， 但 在 
a @ 切线 的 斜率 =0 中、@、 回 的 情况 
SX 下 函数 不 取 最 小 值 。 











在 通过 后 述 的 梯度 下 降 法 求 最 小 值 时 ， 这 个 性 质 有 时 会 成 为 很 大 的 








r----------------------------------------------------i 


回国 求 以 下 也 数 f(x) 的 最 小 值 。 
f(0)=3x 4x 12x +32 


TE 


解 首先 我 们 求 出 导 函 数 。 


fx) = 12x° — 12x° — 24x = 12x(x + 1)(x — 2) 











然后 ， 我 们 可 以 做 出 以 下 表格 ( 称 为 增 减 表 )。 









































x 一 1 0 2 
f'0) 0 0 三 0 国 
7 Ny 27 7 32 ~ 0 也 
( 极 小 ) ( 极 大 ) ( 最小) 
注 : 增 大 、 减 小 用 媳 、 义 表示 ， 区 间 用 … 表 示 。 





























从 表 中 可 以 看 出 ，f(x) 在 点 x= 2 处 取得 最 小 值 0。 
如 果 已 知 增 减 表 ， 就 可 以 画 出 函数 图 像 的 大 体形 
状 。 这 里 我 们 使 用 回国 中 的 增 减 表 ， 画 出 函数 


Jo =3x 4x — 12x +32 














的 图 像 ， 如 右 图 所 示 。 











2-6 ”神经 网 络 的 导数 基础 | 71 





,es) de Ne i ee eM ee i i se le ed 0 ey ee ee ey te ee 


求 /foo =22-4xr+3 的 最 小 值 。 


解 首先 我 们 求 出 导 函 数 。 





' fx) =4x -4 ' 
， 然后， 我们 可 以 做 出 如 下 的 增 减 表 。 从 表 中 可 以 看 出 ,f(x) 在 点 ， 
' x=1 处 取得 最 小 值 1。 








(最小) 


作为 参考 ， 我 们 在 增 减 表 的 右边 画 出 了 函数 图 像 。 


| | 








图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 尊 引 





晶 版 权 





72 第 2 章 神经 网 络 的 数学 基础 


”再 大 神经 网 络 的 偏 导数 基础 





神经 网 络 的 计算 往往 会 涉及 成 二 上 万 个 变量 ， 这 是 因为 构成 神经 网 
络 的 神经 单元 的 权重 和 偏 置 都 被 作为 变量 处 理 。 下 面 我 们 就 来 考察 一 下 
神经 网 络 的 计算 中 所 需 的 多 变量 函数 的 导数 。 
注 : 本 节 所 考察 的 函数 是 充分 光滑 的 函数 。 











多 变量 函数 

如 前 所 述 (2-1 节 )， 在 函数 y=f(x) 中 , x 称 为 自 变 量 , y 称 为 因 变 
量 。 上 一 市 我 们 讲解 求 导 方 法 时 考虑 了 有 一 个 自 变 量 的 函数 的 情形 。 本 
节 我 们 来 考察 有 两 个 以 上 的 自 变量 的 函数 。 有 两 个 以 上 的 自 变 量 的 函数 
称 为 多 变量 函数 。 


Z=X + 





多 变量 函数 难以 直观 化 。 例 如 ， 即 使 是 像 四 上 则 那样 简单 的 函数 ， 其 
图 像 也 是 非常 复杂 的 ， 如 下 图 所 示 。 








Z= 台 十 六 的 图 像 。 


描述 神经 网 络 的 函数 的 变量 有 成 千 上 万 个 ， 因 此 难以 从 直观 上 理解 
这 些 函数 。 不 过 ， 只 要 理解 了 单 变量 的 情况 ,我们 就 可 以 将 多 变量 的 情 
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况 作 为 其 扩展 来 理解 ， 这 样 就 不 会 那么 困难 了 。 
单 变量 函数 用 f(x) 表示 ,仿照 单 变量 函数 ， 多 变量 函数 可 以 如 下 
表示 。 


四 加 fQ,y) : 有 两 个 自 变 量 x、y 的 函数 。 
EE Ar， 2， ee : 有 7 个 自 变量 xu x， ,Xn 的 函数 。 


求 导 的 方法 也 同样 适用 于 多 变量 函数 的 情况 。 但 是 ， 由 于 有 多 个 变 
量 ， 所 以 必须 指明 对 哪 一 个 变量 进行 求 导 。 在 这 个 意义 上 ， 关 于 某 个 特 
定 变 量 的 导数 就 称 为 偏 导数 〈 partial derivative )。 

例如 ， 让 我 们 来 考虑 有 两 个 变量 x、y 的 函数 z=f(x, y)。 只 看 变量 x， 
将 y 看 作 常 数 来 求 导 ， 以 此 求 得 的 导数 称 为 “关于 x 的 偏 导数 ”"， 用 下 面 
的 符号 来 表示 。 





Oz Wk Of (%, DJ) = lim Cr+Ar， y)— f(x,y) 
Ox Ox Ar0 Ax 


关于 y 的 偏 导数 也 是 同样 的 。 


Oz HN) lim f(x, y+Ay)— f(x,y) 
Oy Oy 30 Ay 
下 面 ， 我 们 通过 四 加 和 国 二 到、 加 时 来 看 一 下 神经 网 络 中 用 到 的 
偏 导数 的 代表 性 例子 。 




















让 


EED fo, y) =3x1+ 4y 时 ， 求 人 所 y) ， -一 y) 
X y 





解 -6x， YE _s 


pp 
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对 机 讽 丽 人 





本 





光滑 的 单 变量 函数 y=f(x) 在 点 x 人 处 取得 最 小 值 的 必要 条 件 是 导 函 数 
在 该 点 取 值 0 (2-6 节 )， 这 个 事实 对 于 多 变量 函数 同样 适用 。 例 如 对 于 
有 两 个 变量 的 函数 ， 可 以 如 下 表示 。 





上 述 (1) 很 容易 扩展 到 一 般 的 具有 个 变量 的 情形 。 
此 外 ， 从 下 图 可 以 清楚 地 看 出 上 述 (1) 是 成 立 的 。 因 为 从 x 方向 以 及 
方向 来 看 ， 函 数 z=flx, y) 取得 最 小 值 的 点 就 像 葡 萄 酒杯 的 底部 。 


坟 zj 


切线 的 斜率 
=0 





> 由 上 述 (1) 的 含义 。 


就 像 我 们 之 前 所 确认 的 那样 (2-6 节 )， 上 述 (1) 所 示 的 条 件 是 必要 
条 件 。 即 使 满足 上 述 (1)， 也 不 能 保证 函数 f(x, y) 在 该 点 处 取得 最 小 值 。 


求 函数 == 妆 + 思 取 得 最 小 值 时 x、?y 的 值 。 
首先 ， 我 们 来 求 关于 x、y 的 偏 导数 。 
6z _ Oz 


一 =2x, =2y 
Ox Oy 














到 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 


Es 


重 版 权 
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Ja 


=0, y=0。 此 时 函数 












































根据 上 述 (1)， 函 数 取 得 最 Is 
值 z 为 0。 由 于 z=x?+ 汶 三 0， 所 以 我 们 知道 这 
通过 前 面 的 阿 加 的 函数 图 像 ， ie 
se GE 于 3 拉 格 朗 日 乘 数 法 

在 实际 的 最 小 值 问题 中 ， 有 时 会 对 变量 附加 约束 








相似 的 问题 。 


当 双 + 弛 =1 时 ， 求 x+y 的 最 小 值 。 














条 件 ， 例 如 下 面 这 个 





函数 值 0 就 是 最 小 值 。 
实 。 





| 


与 














这 种 情况 下 我 们 使 用 拉 格 朗 日 乘 数 法 。 这 个 方法 











首先 引入 参数 1， 创建 











下 面 的 函数 工 。 


2 





L=f(x,y) 


之 前 的 (1) 


Age(x,»y) = (x +y) 











然后 利 











Co 2A%=0 
Ox 





5 





oe 


1) 


EE 三 1|= 多 AV 三 贡 








根据 这 些 式 子 以 及 约束 条 件 廊 +y 
因而 ， 当 x=y= 一 1/ M2 时 ，x +y 取得 最 / 
在 求 性 能 恨 好 的 神经 网 络 的 正则 化 技术 中 ， 


1 到 | 守 训 二 二 多 





















































ey 
经 中 


+1/ V2。 


小 值 -V2 。 




















会 使 用 该 方法 。 
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误差 反 向 传播 法 必需 的 链 式 法 则 








下 面 我 们 来 考察 有 助 于 复杂 函数 求 导 的 链 式 法 则 。 这 个 法 则 对 于 理 
解 后 述 的 误差 反 向 传播 法 很 有 必要 
注 ; 未 过 考察 的 函数 是 充分 光滑 的 函数 。 














神经 网 络 和 复合 函数 


已 知 函数 y=f(u)， 当 表示 为 u=g(x) 时 , y 作 为 x 的 函数 可 以 表示 
为 形 如 y=f(le(x)) 的 垦 套 结构 (wu 和 x 表示 多 变量 )。 这 时 ， 椒 套 结构 的 函 
数 f(g(%)) 称 为 f(u) 和 g(x) 的 复合 函数 。 








加 加 函数 z= (2 -7 攻 : 是 函数 wx=2-》 和 函数 z=z2 的 复合 函数 。 


z=(2-y) 








函数 z=(2-)) 是 函数 wx=2-》 
和 函数 z= 好 的 复合 函数 。 此 
了 一。 2 RE 外 ， 这 个 函数 示例 在 后 面 的 代价 

丸 三 和 2 一 池 二 函数 中 会 用 到 。 
























































加 回 对 于 多 个 输入 xz x,，…, Xx,， 将 a(x) 作为 激活 函数 ， 求 神经 单元 的 输 
ein 


y=aWwixi + wax2 + "+ Wnxn + b) 


wi, Wy，…, Wn 为 各 输入 对 应 的 权重 ,5 为 神经 单元 的 偏 置 。 这 个 输出 函数 
二 XxX ,x; 的 一 次 函数 了 和 激活 函数 a 的 复合 函数 。 








a Xs Ni) = WX + WN 十 十 十 已 
y=a(z) 


本 书 使 用 “ 链 式 法 则 ” 


立 的 。 通 过 将 导数 月 


输入 


x Xp = ors) 
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加 权 输 入 输出 


mm y= 2(2) 


=WX+t WX + + WX, +Db 


单 变量 函数 的 链 式 法 则 


已 知 单 变 量 函 数 y=f(u)， 当 表示 为 单 变 量 函 数 u =g(x) 时 ， 复合 
函数 f(g(x)) 的 导 函 数 可 以 如 下 简单 地 求 出 来 


dy _ dy du 


dx dx dx 0 


这 个 公式 称 为 单 变量 函数 的 复合 函数 求 导 公 式 ， 也 称 为 链 式 法 则 。 





这 个 名 称 。 


Pa 


人 


dx 





单 变量 函数 的 链 式 法 则 。 导 数 
du 可 以 像 分 数 一 样 进行 计算 。 




















观察 式 (1) 的 右边 ， 如 果 将 dx、dy、du 都 看 作 一 个 单独 的 字母 ， 那 
么 式 (1) 的 左边 可 以 看 作 将 右边 进行 简单 的 约 分 的 结果 ， 这 个 看 法 总 是 成 





有 dx、dy 等 表示 ， 我 们 可 以 这 样 记忆 链 式 法 则 : “复合 


函数 的 导数 可 以 像 分 数 一 样 使 用 约 分 。” 





ba 





这 个 约 分 的 法 则 不 适 











用 于 dx、dy 的 平方 等 情形 。 





加 由 当 y 为 w 的 函数 ,wu 为 v 的 函数 ,vy 为 x 的 函数 时 ， 


Re 三 个 函数 的 复合 函数 的 


dy dy dx dy 


dr dz dv dx 











链 式 法 则 。 与 两 个 Wa 























du 数 一 样 进行 计算 。 














站 得 























此 外 ， 由 于 于 = ， 所 以 可 得 








' 国 国 对 x 的 函数 y= 一 一 〈(w、2 为 常数 ) 求 导 。 

， 解 我 们 设 定 以 下 函数 ， 

1 y= 下 ,，U=Wwx+b 

: | 二 

由 于 第 1 个 式 子 为 Sigmoid 函数 ， 根 据 2 - 6 节 的 式 (5)， 可 得 
dy 及 

' = 


本 


多 变量 函数 的 链 式 法 则 














1 


= 


在 多 变量 函数 的 情况 下 ， 链 式 法 则 的 思想 也 同样 适用 。 只 要 像 处 理 
分 数 一 样 对 导数 的 式 子 进行 变形 即 可 。 然 而 事情 并 没有 这 么 简单 ， 因 为 

















必须 对 相关 的 全 部 变量 应 用 链 式 法 则 。 
我 们 来 考察 两 个 变量 的 情形 。 




















变量 z 为 uv 的 函数 ， 如 果 w、v 分 别 为 x、y 的 函数 ， 则 z 为 x、y 


的 函数 ， 此 时 下 式 〈 多 变量 函数 的 链 式 法 则 ) 成 立 。 


6z Cu GN 
二 = 守 + 字 > O) 
Ox OuoOx OvOx 


变量 z 为 u、v 的 函数 ，u、v 分 别 为 x、y 的 函数 ，z 关于 x 求 导 时 ， 先 对 wu、v 求 导 ， 然 




















后 与 z 的 相应 导数 相 乘 ， 最 后 将 乘积 加 起 来 。 
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与 上 面 式 (2) 一 样 ， 下 式 也 成 立 。 
和 
Oy uOy pp 

加 四 中 各 变量 的 关系 如 下 图 所 示 。 








3 

Ce © = 2 Se 

oN5? OO 
可 Vv 


四 上 是 当 C=ww+vw, u=ax+by, v=px+qy (a、b、p、9 为 常数 ) 时 ， 


OC OCOu OCOv 
Or Uo Ox 
OC OCOu OCOv 
Oy uoy OO 








=2u:a+2v:p=2a(ax+by)+2p(px+qy) 








=2u:b+2v:g=2b(ax+by)+2g(px+qy) 





上 式 在 三 个 以 上 的 变量 的 情况 下 也 同样 成 立 。 


BCc=w+tv+rw, u=axtbytcez, v=ax+byt+cz, w=axt+byt+cyz 
( qj、bi、ci 为 常数 ，i= 1,2,3 ) 时 ， 
6C_6C% ,OC% ,OC Ow 


Ox ux par Ow Ox 
=2U.0 +2v:4, +2w'a, 





=2a(axt+by+cz)+2a(a,x+by+c,2)+2a(ax+by+cz) 


acC 
RN © oS 人 
ONxoA - O27 
© ‘©® 5 





的 变量 关系 。 
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梯度 下 降 法 的 基础 : 
多 变量 函数 的 近似 公式 














梯度 下 降 法 是 确定 神经 网 络 的 一 种 代表 性 的 方法 。 在 应 用 梯度 下 降 
法 时 ,需要 用 到 多 变量 函数 的 近似 公式 。 
































变量 函数 的 近似 公式 


首先 我 们 来 考察 单 变量 函数 y =ftx)。 如 果 x 作 微小 的 变化 ， 那 么 函 
数值 7 将 会 怎样 变化 呢 ? 答案 就 在 导 函 数 的 定义 式 中 (2-6 节 ) 


fo 





f(x+Ax)- f(x) 
Ax 

在 这 个 定义 式 中 ，Ax 为 “无 限 小 的 值 ”"， 不 过 若 将 它 蔡 换 为 “微小 的 值 ”， 
也 不 会 造成 很 大 的 误差 。 因 而 ， 下 式 近 似 成 立 。 

wy fx+Ax)- f(x) 

(x) 二 二 
将 上 式 变形 ， 可 以 得 到 以 下 单 变 量 函 数 的 近似 公式 。 
f(x+Ax) 导 f(x)+ f(x)Ax (Ax 为 微小 的 数 ) (1) 


当 fQ)=e* 时 , 求 x=0 附近 的 近似 公式 。 
将 指数 函数 的 求 导 公 式 fy) =e(2-6 节 ) 应 用 在 式 (1) 中 ， 如 下 所 示 。 


en er+erAr (Ax 为 微小 的 数 ) 


取 x=0， 重 新 将 Ax 百 换 为 x， 可 得 e* 所 1+x (x 为 微小 的 数 )。 
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这 就 是 加 而 的 解答 。 
下 面 的 图 像 是 将 y=e* 与 y=1+x 夯 在 一 张 图 上 。 在 x =0 附近 两 个 
函数 的 图 像 重 释 在 一 起 ， 由 此 可 以 确认 加 帅 的 解答 是 正确 的 。 





























在 x=0 附近 , y=e* 与 y=1+x 的 
到 像 重 琶 。 























多 变量 函数 的 近似 公式 


下 面 我 们 将 单 变量 函数 的 近似 公式 (1) 扩展 到 两 个 变量 的 函数 。 如 果 
x、y 作 微小 的 变化 ， 那 么 函数 z =/(x, y) 的 值 将 会 怎样 变化 呢 ? 答案 是 以 
下 的 近似 公式 。Ax、Ay 为 微小 的 数 。 











SrA yt A Dt Ey 0 





当 z=er7 时 , 求 x=y=0 附近 的 近似 公式 。 
将 指数 函数 的 求 导 公 式 宇 一 -ery(2-6 节 ) 应 用 在 式 (2) 中 ,可 得 
X yy 


er er +ewArte™Ay (Ar、Ay 为 微小 的 数 ) 





取 x=y=0， 重新 将 Ax 替换 为 x， 将 Ay 替换 为 y， 可 得 


e™ 二 1+x+y (Xx、y 为 微小 的 数 ) 








以 上 就 是 回回 的 解答 。 下 面 我 们 试 着 化 简 式 (2)。 首 先 定义 如 下 的 Az。 


Az =f(x + Ax,y +Ay)— fx, y) 





上 式 表示 当 x、y 依次 变化 Ax、Ay 时 函数 = xc y) 的 变化 ， 于 是 式 (2) 可 
以 像 下 面 这 样 简洁 地 表示 。 
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Oz Oz 
Az 一 一 Ax+ 一 人 3 
A Dy y (3) 








通过 这 样 的 表示 方式 ， 就 很 容易 将 近似 公式 (2) 进行 推广 。 例 如 ， 变 
量 z 为 三 个 变量 w、x、y 的 函数 时 ， 近 似 公式 如 下 所 示 。 


Az 三 -一 Amy+ 一 Arx+ 一 人 ) (4) 








近似 公式 的 向 量 表 示 


三 个 变量 的 函数 的 近似 公式 (4) 可 以 表示 为 如 下 两 个 向 量 的 内 积 
Vz.Ax 的 形式 。 











oz 6z 06z 
Vz 攻 有 | Ax = (Aw, Ax, Ay) (5) 
注 : V 通常 读 作 nabla ( 2-10 节 )。 

我 们 可 以 很 容易 地 想象 ， 对 于 一 般 的 n 变量 孔 数 ， 近 似 公 式 也 可 以 像 这 
样 表 示 为 内 积 的 形式 。 这 个 事实 与 下 一 节 要 考察 的 梯度 下 降 法 的 原理 有 关 。 





~ 











booooSnn 3 未 芽 展 开 式 
将 近似 公式 的 一 般 化 公式 称 为 泰勒 展开 式 。 例 如 ， 在 两 个 变量 的 情况 下 ， 

这 个 公式 如 下 所 示 。 
VA p+Ay)= f(x, yp)+ 





Fatay 
Oy 





总 有 oo 








而 OxOy Oy’ 
el 于 On of of 
二 (AD +3 ee (Ay) 1327 六 7 Ax(Ay) 十 二 与 要 | 





在 泰勒 展开 式 中 ， 取 出 前 三 项 ， 就 得 到 式 (2)。 


PA 
0 
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梯度 下 降 法 的 含义 与 公式 








应 用 数学 最 重要 的 任务 之 一 就 是 寻找 函数 取 最 小 值 的 点 。 本 节 我 们 
来 考察 一 下 车 名 的 寻找 最 小 值 的 点 的 方法 一 一 梯度 下 降 法 。 在 第 4 章 和 
第 5 章 中 我 们 将 会 看 到 ， 梯 度 下 降 法 是 神经 网 络 的 数学 武器 。 

本 节 主 要 通过 两 个 变量 的 函数 来 展开 讨论 。 在 神经 网 络 的 计算 中 ,， 往 
往 需要 处 理 成 千 上 万 个 变量 ， 但 其 数学 原理 和 两 个 变量 的 情形 是 相同 的 。 
注 : 同样 ， 本 节 考 察 的 函数 是 充分 光滑 的 函数 。 











梯度 下 降 法 的 思路 


已 知 函 数 z=ftx, y)， 怎 样 求 使 函数 取得 最 小 值 的 x、y 呢 ? 最 有 名 的 
方法 就 是 利用 “使 函数 z=f(x, y) 取得 最 小 值 的 x、y 满足 以 下 关系 ”这 个 
事实 (2-7 节 )。 





co FEW)_0 
Ox es Oy 





这 是 因为 ， 在 函数 取 最 小 值 的 点 处 ， 就 像 葡萄 酒杯 的 底部 那样 ， 与 
函数 相 切 的 平面 变 得 水 平 。 


Zz 


艺 -0 艺 -0 
» 


式 (1) 的 含义 。 在 函数 取 
最 小 值 的 点 的 附近 ， 函 数 
的 增 量 为 0。 不 过 ， 这 个 
式 子 终归 只 是 必要 条 件 。 
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然而 ， 在 实际 问题 中 ， 联 立方 程式 (1) 通常 不 容易 求解 ， 那 么 该 如 何 解 
决 呢 ?7 梯度 下 降 法 是 一 种 具有 代表 性 的 替代 方法 。 该 方法 不 直接 求解 式 (1) 
的 方程 ， 而 是 通过 慢 慢 地 移动 图 像 上 的 点 进行 摸索 ， 从 而 找 出 函数 的 最 小 值 。 


我 们 先 来 看 看 梯度 下 降 法 的 思路 。 这 里 我 们 将 图 像 看 作 和 斜坡 ， 在 斜 
坡 上 的 点 了 处 放 一 个 乒乓 球 ， 然 后 轻 轻 地 松 开 手 ， 球 会 沿 着 最 陡 的 坡 面 
开始 深 动 ， 待 球 稍微 前 进 一 点 后 ， 把 球 止 住 ， 然 后 从 止 住 的 位 置 再 次 松 





















































H 









































手 ， 乒 乓 球 会 从 这 个 点 再 次 治 着 最 陡 的 坡 面 开 始 滚动 。 


z= f(x, y) 
的 图 像 





























将 函数 图 像 的 一 部 分 放 
大 ， 并 看 作 坡 面 。 球 沿 

最 陡 的 坡 面 ( PO 方 
向 ) 开始 滚动 。 




































































这 个 操作 反复 进行 若干 次 后 ， 乒 乓 球 沿 着 最 短 的 路 径 到 达 了 图 像 的 


底部 ， 也 就 是 函数 的 最 小 值 点 。 梯 度 下 降 法 就 模拟 了 这 个 球 的 移动 过 程 。 























人 按照 乒乓 球 的 移动 轨迹 
来 走 的 话 ， 就 会 沿 着 最 短 
路 径 R1 到 达 图 像 的 底部 
( 最 小 值 )。 




















在 数值 分 析 领 域 ， 梯 度 下 降 法 也 称 为 最 速 下 降 法 。 这 个 名 称 表 示 治 
着 图 像 上 的 最 短路 径 下 降 。 





近似 公式 和 内 积 的 关系 





让 我 们 依照 前 玫 








i 考察 过 的 思路 来 将 梯度 下 降 法 正式 化 。 





函数 z=f(,y) 中 ， 当 x 改变 Ax, y 改变 Ay 时 ,我 们 来 考察 函数 fx, y) 


的 值 的 变化 Az。 
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Az=f(x +Ax, y+Ay)—/f(x,y) 


根据 近似 公式 (2-9 节 )， 以 下 关系 式 成 立 。 





A DA DA 0) 


Ox 





== Jo 用 








图 中 ， 根 据 2-9 节 的 公式 ， 
Az=f(r+ Ax, y+ Ay) -fl, 
yy) 与 Ax、Ay 之 间 的 关系 式 
(2) 成 立 。 




















我 们 在 上 一 节 也 提 到 过 ， 式 (2) 的 右边 可 以 表示 为 如 下 两 个 向 量 的 内 
只 (2-4 市 ) 形式 。 


Es ») Of(x,y) 
”Oy 


A ] (Ax, Ay) (3) 


请 大 家 注意 这 个 内 积 的 关系 ， 这 就 是 梯度 下 降 法 的 出 发 点 。 





,yp) Fy) 
Ox ” Oy 


-A my A YD FED, 
内 积 Ox Oy 


一 (人 7 Ay) 














式 (2) 左边 的 Az 可 以 用 式 (3) 的 两 个 向 量 的 内 积 形 式 来 表示 。 











向 量 内 积 的 回顾 


我 们 来 考察 两 个 固定 大 小 的 非 零 向 量 a、b。 当 5b 的 方向 与 a 相反 时 ， 
内 积 a :5b 取 最 小 值 (2-4 节 )。 
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向 量 a、b 的 内 积 为 |a | 2 |cosb 
By 一 >” (0 为 两 个 所 的 夹 角 ) ( 左 图 )。 
4- 一 一 0 为 180" 时 ( 即 w、 5 方向 相 

a 


O 反 )， 内 积 的 值 最 小 ( 右 图 )。 




































































换 句 话说 ， 当 向 量 b 满 足以 下 条 件 式 时 ， 可 以 使 得 内 积 a…b 取 最 小 值 。 
b=ka (Kk 为 正 的 常数 ) (4) 


内 积 的 这 个 性 质 (4) 就 是 梯度 下 降 法 的 数学 基础 。 


二 变量 函数 的 梯度 下 降 法 的 基本 式 


当 x 改变 Ax, y 改变 Ay 时， 函数 f(x,y) 的 变化 Az 为 式 (2)， 可 以 表 
示 为 式 (3) 的 两 个 向 量 的 内 积 。 根 据 式 (4)， 当 两 个 向 量 方 向 相反 时 ， 内 
积 取 最 小 值 。 也 就 是 说 ， 当 式 (3) 的 两 个 向 量 的 方向 恰好 相反 时 ， 式 (2) 
的 Az 达到 最 小 ( 即 减 小 得 最 快 )。 


一 一 一 一 
LU Br “ Oy 
当 式 (3) 的 两 个 向 量 方向 相反 时 ， 
pd (2) 的 Az 最 小 ， 换 言 之， 就 是 
(Ax, Ay) 


沿 着 图 像 最 陡 的 坡度 减 小 。 

根据 以 上 讨论 我 们 可 以 知道 ， 从 点 Co yy) 向 点 (x +Ax, y+Ay) 移动 时 ， 
当 满 足以 下 关系 式 时 ， 函 数 z =f(x, y) 减 小 得 最 快 。 这 个 关系 式 就 是 二 变 
量 函 数 的 梯度 下 降 法 的 基本 式 。 











出 





























ee A "人 拉 Y | (7 为 正 的 微小 常数 ) 。 (5) 


























注 : 希腊 字母 了 读 作 ita， 对 应 拉丁 字母 1f。 这 里 也 可 以 像 式 (4) 那样 使 用 字母 上， 不 过 
大 多 数 文献 中 采用 7。 


利用 关系 式 (5)， 如 果 
从 点 Gx, 加 点 (XY+Ax,y+Ay) 移 动 (6) 
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就 可 以 从 图 像 上 点 (x,y) 的 位 置 最 快速 地 下 坡 。 








f(x, y) 
的 图 像 



















































一 当 满足 关系 式 (5) 
ee Yn, ve) 时 ， 函 数 图 像 减 小 
位 \& 得 最 快 。 








式 人 9 fi 是 [ 立 uw 上 测 2 ire 汗 总 六 村 


的 梯度 〈 gradient )。 这 个 名 称 来 自 于 它 给 出 了 最 陡 的 坡度 方向 。 


四国 设 Ax、Ay 为 微小 的 数 。 在 函数 z= 邓 + 汶 中 ， 当 x 从 1 变 到 1+ 
Ax、y 从 2 变 到 2+Ay 时 ， 求 使 这 个 函数 减 小 得 最 快 的 向 量 (Ax, Ay)。 


1 











解 根据 式 (5)，Ax、Ay 满足 以 下 关系 : 
Oz 0 
Ox AN) =- ) G7 为 正 的 微小 常数 ) 


因为 于 = 2r， =2», 依 题 意 可 知 x= 1,y=2， 于 是 有 
y 
































梯度 下 降 法 及 其 用 法 
为 了 和 弄 清 梯度 下 降 法 的 思路 ， 前 面 我 们 考察 了 乒乓 球 的 移动 方式 。 
1 于 在 不 同 的 位 置 陡坡 的 方向 也 各 不 相同 ， 通 过 反复 进行 “一 边 慢 慢 地 








移动 位 置 一 边 寻 找 陡坡 ”的 操作 ,最终 可 以 到 达 函 数 图 像 的 底部 ， 也 就 
是 函数 的 最 小 值 点 。 
下 山 的 情形 也 是 一 样 的 。 最 陡 的 下 坡 方向 在 每 个 位 置 各 不 相同 。 因 
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此 ， 要 想 通 过 最 短路 径 下 山 ， 就 必须 一 边 慢 慢 地 下 坡 一 边 在 每 个 位 置 寻 
找 最 陡 的 坡度 。 

在 函数 的 情况 下 也 完全 一 样 。 要 寻找 函数 的 最 小 值 ， 可 以 利用 式 (5) 
找 出 减 小 得 最 快 的 方向 ， 沿 着 这 个 方向 依照 上 述 (6) 稍微 移动 。 在 移动 后 
到 达 的 点 处 ， 再 次 利用 式 (5) 算出 方向 ， 再 依照 上 述 (6) 稍微 移动 。 通 过 反 
复 进行 这 样 的 计算 ,就 可 以 找到 最 小 值 点 。 这 种 寻找 函数 f(x,y) 的 最 小 值 
点 的 方法 称 为 二 变量 函数 的 梯度 下 降 法 。 








» 
人 Ro, »0) 
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从 初始 位 置 Po 出 发 ， 利 用 式 (5)、 
(6) 求 出 最 陡坡 度 的 点 P， 然 后 

















Pl», 2) ZT P(x, ») 





















































,4 一 从 P 出 发 ， 利 用 式 (5)、(6) 进 一 

LA Rs 1) 步 求 出 最 陡坡 度 的 点 P,，， 即 反复 

°°" 利用 式 (5)、(6)， 最 终 得 以 最 快速 

最 小 值 点 天 地 到 达 最 小 值 点 。 这 就 是 梯度 下 
> 降 法 。 








下 一 节 我 们 将 用 Excel 来 体验 梯度 下 降 法 ， 以 便 更 具体 地 理解 上 面 讲 
解 的 内 容 。 











将 梯度 下 降 法 推广 到 三 个 变量 以 上 的 情况 
二 变量 函数 的 梯度 下 降 法 的 基本 式 (5) 可 以 很 容易 地 推广 到 三 个 变量 
以 上 的 情形 。 当 函数 了 由 个 自 变 量 xi, xp,…, x 构成 时 ， 梯 度 下 降 法 的 
基本 式 (5) 可 以 像 下 面 这 样 进行 推广 。 


























设 11 为 正 的 微小 常数 ， 变 量 1，2D，”，J01 改变 为 X1 + AXi, Xz 十 Axz …， 
x 十 Ax,， 当 满足 以 下 关系 式 时 ， 子 数 f 减 小 得 最 快 。 











(Ax, Ax,, wo Ax ) 


n 


oo oF 2/ 
而" ae ”ex 


n 





这 里 ， 以 下 向 量 称 为 孔 数 了 在 点 (Xi Xo, “ny) 处 的 梯度 。 
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a 2 
Ox Ox ”pr 





与 二 变量 函数 的 情况 一 样 ， 利 用 这 个 关系 式 (7)， 如 果 
从 点 CD xz Xn) 问 点 (XI 十 AX1, X2 十 AX2,…, Xn 十 Axn) 移 动 (8) 


就 能 够 沿 着 函数 减 小 得 最 快 的 方向 移动 。 因 此 ， 反 复 依照 上 述 (8) 来 移 
动 ， 就 能 够 在 n 维 空间 中 算出 坡度 最 陡 的 方向 ， 从 而 找到 最 小 值 点 。 这 
就 是 变量 情况 下 的 梯度 下 降 法 。 

此 外 ， 由 于 式 (7)、(8) 是 n 维 的， 难以 在 纸 上 画 出 其 图 像 。 大 家 可 以 
利用 二 变量 情况 下 的 式 (5)、(6) 来 直观 地 理解 。 














哈密 顿 算 子 V 


在 实际 的 神经 网 络 中 ， 主 要 处 理由 成 千 上 万 个 变量 构成 的 函数 的 最 
小 值 。 在 这 种 情况 下 ， 像 式 (7) 那样 的 表示 往往 就 显得 十 分 元 长 。 因 此 我 
们 来 考虑 更 简洁 的 表示 方法 。 

在 数学 的 世界 中 ， 有 一 个 被 称 为 向 量 分 析 的 领域 ， 其 中 有 一 个 经 党 
用 到 的 符号 V 。V 称 为 哈密 顿 算 子 ， 其 定义 如 下 所 示 。 
































vw-[¥, of | 
x Ox, Ox, 


利用 这 个 符号 ， 式 (7) 可 以 如 下 表示 。 





注 : 如 前 所 述 ( 2-9 节 )，V 通常 读 作 nabla， 来 源 于 希腊 竖琴 的 形象 。 








对 于 二 变量 函数 f(x, y)， 梯 度 下 降 法 的 基本 式 (5) 如 下 所 示 。 





(Ar Ay)= =n7Vf (x, y) 





90 | 第 2 章 神经 网 络 的 数学 基础 
四 旧 对 于 三 变量 函数 f(x, y, z)， 梯 度 下 降 法 的 基本 式 (7) 如 下 所 示 。 
(Ax, Ay, Az)=—nVf (x, J]， 2) 


其 中 ,左边 的 向 量 (Ax, Axs,…, Ax) 称 为 位 移 向 量 ， 记 为 Ax。 


Ax = (Axi, Ax>， 9 Axn) 





利用 这 个 位 移 向 量 ， 梯 度 下 降 法 的 基本 式 (7) 可 以 更 简洁 地 表示 。 


Ax=-71VA (11 为 正 的 微小 常数 ) (9) 





到 目前 为 止 , 了 只 是 简单 地 表示 正 的 微小 常数 。 而 在 实际 使 用 计算 机 
进行 计算 时 ， 如 何 恰当 地 确定 这 个 了 是 一 个 大 问题 。 

从 式 (5) 的 推导 过 程 可 知 ,7 可 以 看 作 人 移动 时 的 “ 步 长 "， 根 据 7 的 
值 ， 可 以 确定 下 一 步 移动 到 哪个 点 。 如 果 步 长 较 大 ， 那么 可 能 会 到 达 最 
小 值 点 ， 也 可 能 会 直接 跨 过 了 最 小 值 点 ( 左 图 )。 而 如 果 步 长 较 小 ， 则 可 
能 会 滞留 在 极 小 值 点 ( 右 图 )。 




















在 神经 网 络 的 世界 中 ，7 称 为 学 习 率 。 和 遗憾 的 是 ， 它 的 确定 方法 没有 
明确 的 标准 ， 只 能 通过 反复 试验 来 寻找 恰当 的 值 。 
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用 Excel 体验 梯度 下 降 法 





梯度 下 降 法 是 神经 网 络 计算 的 基础 ， 下 面 我 们 就 通过 Excel 来 弄 清 它 的 
含义 。 在 观察 逻辑 过 程 时 ，Excel 是 一 个 优秀 的 工具 ， 通 过 工作 表 我 们 可 以 
直观 地 看 出 梯度 下 降 法 是 什么 样 的 。 例 如 ， 我 们 用 Excel 来 求解 以 下 问题 。 


这 


' 回国 对 于 函数 := 阅 + 冯 ， 请 用 梯度 下 降 法 求 出 使 函数 取得 最 小 值 的 





i 





注 : 我 们 在 2-7 节 的 贺 轿 中 考察 过 ， 正 确 答案 为 x, y) = (0, 0)。 另 外 ，2-7 节 中 画 了 这 
个 函数 的 图 像 ， 大 家 可 以 参考 一 下 。 


解 首先 求 出 梯度 。 




















oz 6z|l 
梯度 性 gE |- 2y) (1) 
接 下 来 ,我 们 逐步 进行 计算 。 
GD 初始 设 定 
随便 给 出 初始 位 置 co, yj) (i =0) 与 学 习 率 1 


| 证] ES 
| 梯度 下 降 法 《 例 ) z=x*y? 
























































@) 计算 位 移 向 量 
对 于 当前 位 置 (x;, y;))， 算出 梯度 式 4)， 然 后 根据 梯度 下 降 法 的 基本 





式 (2-10 节 式 (53) )， 求 位 移 向 量 Ax = (Ax, Ay,)。 根 据 式 (1)， 可 得 
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(Ax,, Ay;) = 一 1(22， 2y;) =(-7 2x, —77 -27.) (2) 
ET ~ 个 五 | =2+C7 
“1 宰 度 下 降 法 《 例 ) z=e2tg 
2 
区 可 
4 | 计算 梯度 (1) 
‘5| [so 加 梯度 | | 位移 向 量 | 函数 值 | 
| | x | vy [em |ob | Ax| Ay | 
E | o 3%| 20%l co 4o| 
订 算 式 (2) 
(3) 更 新 位 置 
根据 梯度 下 降 法 ， 由 下 式 求 出 从 当前 位 置 Co, 移动 到 的 点 Cs, ;1)。 
(xb = 1;) + (Ax,, Ay,) (3) 
C8 ~ 个 天 | =C7+G7 
4|a| B i E F coal I 


























1 | 梯度 下 降 法 。( 例 ) z=x2+y? 











fe EEFD 立 
梯度 下 降 法 也 可 以 用 于 单 变量 函数 ， 只 要 将 2- 10 节 的 式 (7) 解释 为 一 维 


向 量 (2 = 1 ) 的 情况 就 可 以 了 。 也 就 是 说 ， 将 偏 导数 替换 为 导数 ， 将 得 至 





量 函 数 的 梯度 下 降 法 





| 的 








下 式 作为 梯度 下 降 法 的 基本 式 。 


Ax= 一 nt) (7 为 正 的 微小 常数 ) 
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(@ 反复 执行 @ 一 @@ 的 操作 
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下 图 是 反复 执行 包 一 名 的 操作 30 次 后 得 出 的 坐标 (x30, y30) 的 值 。 这 


与 2-7 节 的 加 回 的 正解 &,y) = (0, 0) 一 致 。 


A|B| 











3.07 
2.46 







0.01 


30| 0%| 000| 






0.01 
0.01 
0.01 









使 函数 取得 最 小 值 的 (x, y) 


人 一) 与 步 长 





0.01 
0.01 

















加 sl 下 | 
梯度 下 降 法 【 例 ) z=x*+y? 
可 
BB | ly | 0 
4 
古 避 梯度 位 移 向 量 
6| |i| x | y | oor 
了 3.00 2.00 6.00 400| -060| -0. i 
区 5 2.40 1.60 4.80 3.20 0.48 
| 3.84 
| 
| 





函数 的 最 小 值 





我 们 在 2-10 节 提 到 可 以 将 7 看 作 步 长 ， 实 际 上 这 并 不 正确 ， 正 确 的 说 


法 是 2- 














10 节 的 式 (5) ( 或 者 更 一 般 的 式 (7) ) 的 





右边 整个 向 量 的 大 小 为 步 长 。 


不 过 ， 虽 然 人 的 步 长 大 体 上 是 固 








定 的 ， 但 梯度 下 降 法 的 “ 步 长 ”是 不 均匀 的 。 








因为 梯度 在 不 同 的 位 置 大 小 不 同 。 














大 











此 ， 在 应 











数学 的 数值 计算 中 ， 有 时 会 





将 式 (5) 进 


行 如 下 变形 。 





Of (%, ») 


Of (x, y) 








fx,y) S(x,y) 
Br Oy 


Ml 


(Ax, Ay)= "| 


| 


0 


这 样 一 来 ， 梯 度 被 修正 为 单位 向 量 ， 我 们 也 就 可 以 将 7 看 作 步 长 了 。 
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最 优化 问题 和 回归 分 析 





在 为 了 分 析 数 据 而 建立 数学 模型 时 ， 通 常 模型 是 由 参数 确定 的 。 在 
数学 世界 中 ， 最 优化 问题 就 是 如 何 确定 这 些 参数 。 

从 数学 上 来 说 ， 确 定神 经 网 络 的 参数 是 一 个 最 优化 问题 ， 具 体 就 是 
对 神经 网 络 的 参数 ( 即 权 重 和 偏 置 ) 进行 拟 合 ， 使 得 神经 网 络 的 输出 与 
实际 数据 相 吻 合 。 

为 了 理解 最 优化 问题 ， 最 浅显 的 例子 就 是 回归 分 析 。 下 面 我 们 就 利 
用 简单 的 回归 分 析 问 题 来 考察 最 优化 问题 的 结构 。 


















































什么 是 回归 分 析 


由 多 个 变量 组 成 的 数据 中 ， 着 眼 于 其 中 一 个 特定 的 变量 ， 用 其 余 的 变 
量 来 解释 这 个 特定 的 变量 ， 这 样 的 方法 称 为 回归 分 析 。 回 归 分 析 的 种 类 有 
很 多 。 为 了 理解 它 的 思想 ， 我 们 来 考察 一 下 最 简单 的 一 元 线性 回归 分 析 。 

一 元 线性 回归 分 析 是 以 两 个 变量 组 成 的 数据 为 考察 对 象 的 。 下 图 给 
出 了 两 个 变量 x、y 的 数据 以 及 它们 的 散 点 图 。 



































左边 数据 的 散 点 


加 

















数据 
一 元 线性 回归 分 析 是 用 一 条 直线 近似 地 表示 右 图 所 示 的 散 点 图 上 的 
点 列 ， 通 过 该 直线 的 方程 来 考察 两 个 变量 之 间 的 关系 。 
这 条 近似 地 表示 点 列 的 直线 称 为 回归 直线 。 
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条 直线 近似 地 表示 散 点 
上 的 点 列 ， 通 过 该 直线 的 
方程 来 考察 两 个 变量 的 关系 ， 
文 样 的 分 析 方 法 就 是 一 元 线 
可 归 分 析 。 这 条 直线 称 为 
归 直 线 。 

























































































v= 











避 集 赂 过 国 
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这 条 回归 直线 用 一 次 关系 式 表 示 如 | 
?=Pr+g (p、9 为 常数 ) (1) 





这 个 式 子 称 为 回归 方程 。 

x、y 是 为 了 将 构成 数据 的 各 个 值 代入 而 设 定 的 变量 ,右边 的 x 称 为 
自 变量 ， 左 边 的 y 称 为 因 变 量 。 常 数 p、 ;这 | 从 人 拉 2 失 抽 ， 
由 给 出 的 数据 来 决定 。 
注 :p 称 为 回归 系数 ，g 称 为 截 距 。 























通过 具体 例子 来 理解 回归 分 析 的 逻辑 
下 面 让 我 们 通过 具体 的 例子 来 看 看 回归 方程 (1) 是 如 何 确定 的 。 


人 


,PE 右 表 是 7 个 高 中 三 年 级 女 学 生 的 身 
高 与 体重 数据 。 根 据 这 些 数据 ， 求 以 体重 
, y 为 因 变 量 、 身 高 x 为 自 变量 的 回归 方程 
y=px+4 (DP、9 为 常数 )。 
























































7 个 学 生 的 身高 
与 体重 数据 。 


TN 




















解 设 所 求 的 回归 方程 如 下 所 示 。 


y=px+4 (p、9 为 常数 ) (2) 
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将 第 个 学 生 的 身高 记 为 x， 体重 记 为 y， 可 以 求 得 第 个 学 生 的 回 
归 分 析 预 测 的 值 〈 称 为 预测 值 )， 如 下 所 示 。 


DXE 十 9 (3) 


我 们 将 这 些 预测 值 加 以 汇总 ， 如 下 表 所 示 。 





















































预测 值 px + gq 

153.3p+ 

164.9p + 

168.1p+ 

151.5p+ 

157.8p + yy 的 实测 值 和 预测 值 。 在 考 

156.7p + 虑 数学 上 的 最 优化 问题 时 ， 
理解 实测 值 和 预测 值 的 差异 

om pt 是 十 分 重要 的 。 














如 下 算出 实际 的 体重 yi 与 预测 值 的 误差 ej。 


er=yt— (pxr + q) (4) 































































实际 数据 点 
一 | (实测 信 ) je ， 
Er : 
下 (预测 值 ) mr+ 91 一 一 > 可 归 方程 
图 说 明 式 (3) 和 式 (4) 
| 身高 * 的 关系 。 第 上 个 学 生 的 
Xk Xi、J4、e 的 关系 图 。 














这 些 ex 的 值 既 可 以 为 正 也 可 以 为 负 。 接 下 来 我 们 来 考虑 下 面 的 值 Ci， 
这 个 值 称 为 平方 误差 。 











1 i 
Cr (er) 7 Ye (px + 9)} (5) 


























注 : 系数 请 是 为 了 方便 进行 之 后 的 处 理 ， 这 个 值 对 结论 没有 影响 。 
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遍历 全 体 数据 ， 将 它们 的 平方 误差 加 起 来 ， 假 设 得 到 的 值 为 Cr。 





CT= CI+C2 十 … 十 C7 
根据 之 前 的 表 以 及 式 (5)， 用 p、g 的 式 子 表示 误差 总 和 Cr， 如 下 所 示 。 
人 =7145.5-(1533p+g)} 13156.0-(164.9p+g)} 


(6) 
1150.8-(156.7p+g)} 171564-(161.1p+g)} 


我 们 的 目标 是 确定 常数 p、g 的 值 。 回 归 分 析 认 为 , p、g 是 使 误差 总 
和 式 (6) 最 小 的 解 。 知 道 这 个 解 的 思路 后 ， 后 1 
































看 就 简单 了 。 我 们 利用 以 下 
的 最 小 值 条件 即 可 (2-7 节 )。 
OCTr _ GCT _ 
op 0 Og 07) 








式 (7) 的 图 形 含义 。 














我 们 来 实际 计算 一 下 式 (6)。 根 据 偏 导数 的 链 式 法 则 (2-8 节 )， 可 得 
6C' 
153.3{45.5—(153.3p+g)} -164.9{56.0—(164.9p+g)}— 





156.7{50.8—(156.7p +g)}—161.1{56.4—(161.1p+g)}=0 
6C 


3 = {45.4-(153.3p+9)}—{56.0—(164.9p+9)} 
q 





{50.8—(156.7p+g)}—{56.4-(161.1p+g9)}=0 
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整理 后 得 到 下 式 。 





1113.4p+7g=372.1 ，177 312p+1113.4g = 59 274 


解 这 个 联 立 方程 ， 可 得 





p=0.41, g=—12.06 


从 而 求 得 目标 回归 方程 (2)， 如 下 所 示 。 


y=0.41x — 12.06 
注 : 这 时 CT= 27.86。 





















































60 
-04x-1206 
50 
ba 

40 
30 
0 | ; i 

150 155 160 165 170 作为 同 辐 | 的 解 的 回归 直线 。 














以 上 就 是 一 元 线性 回归 分 析 中 使 用 的 回归 直线 的 确定 方法 。 这 里 的 
重点 是 最 优化 问题 的 求解 思路 。 这 里 所 考察 的 最 优化 方法 在 后 面 的 神经 
网 络 的 计算 中 也 可 以 直接 使 用 。 






































代价 函数 


在 最 优化 方面 ， 误 差 总 和 Cr 可 以 称 为 “误差 函数 "“ 损 失 函 数 ”“ 代 

价 函 数 ” 等 。 本 书 采用 代价 函数 ( cost function ) 这 个 名 称 。 

注 : 之 所 以 不 使 用 误差 函数 ( error function )、 损 失 函 数 ( lost function ) 的 叫 法 ， 是 因为 
它们 的 首 字母 容易 与 神经 网 络 中 用 到 的 粹 ( entropy )、 层 ( layer ) 的 首 字母 混淆 。 
此 外 ， 除 了 这 里 所 考察 的 平方 误差 的 总 和 Cr 之 外 ， 根 据 不 同 的 思路 ， 

代价 函数 还 存在 其 他 多 种 形式 。 利 用 平方 误差 的 总 和 Cr 进行 最 优化 的 方法 

称 为 最 小 二 乘法 。 本 书 中 我 们 只 考虑 将 平方 误差 的 总 和 Ci 作为 代价 函数 。 
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RN 





成 绩 y 为 
线性 回归 











加 如 右 表 所 示 ， 已 知 3 名 学 生 的 数学 成 
绩 和 理科 成 绩 。 根 据 这 些 数 据 ， 求 以 理科 














因 变 量 、 数 学 成 绩 x 为 自 变量 的 





方程 。 

















理科 | 
成 绩 y | ， 
| 
4 | 
3 | 


EN Ne 





模型 参数 的 个 数 
我 们 再 来 看 看 之 前 的 回国 。 模 型 有 2 个 参数 p、 


gqg， 而 已 知 的 条 件 


(数据 的 规模 ) 有 7 个 。 也 就 是 说 ， 模 型 的 参数 的 个 数 (2 个 ) 小 于 条 件 
的 个 数 (7 个 )。 反 过 来 说 ， 回 归 方 程 是 根据 大 量 的 条 件 所 得 到 的 折 中 结 


果 。 这 里 所 说 的 “ 折 中 ”是 指 ， 理 想 


取 最 小 值 。 








误差 接近 0， 就 可 以 说 这 是 合乎 数据 的 模型 。 
此 外 ， 模 型 的 参数 个 数 大 于 数据 规模 时 又 如 何 呢 ? 当然 ， 这 时 参数 就 

















P 应 该 取 值 0 的 代价 函数 式 (6) 只 能 
因此 ， 模 型 与 数据 的 误差 Cr 不 为 0 也 无 须 担 心 。 不 过 ， 只 要 


不 确定 了 。 因 此 ， 要 确定 模型 ， 就 必须 准备 好 规模 大 于 参数 个 数 的 数据 。 











ke GE 党 数 和 变量 


在 回 


















































在 代价 函 
考虑 式 (6 








数 式 (6) 中 ，p、g 是 被 作为 变量 来 处 理 的 。 正 因 








归 方 程 (1) 中 ，x、y 分 别称 为 自 变量 、 因 变量 ,，p、g 为 常数 。 不 过 ， 





为 这 样 ， 我 们 才能 





) 的 导数 。 




















像 这 样 , 根据 不 同 的 角度 , 常数 、 变 量 是 变幻 不 定 的 。 从 数据 的 角度 来 看 ， 




















回归 方程 的 x、y 为 变量 ， 从 代价 函数 的 角度 来 看 ，P、9 为 变量 。 


图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 尊重 版 权 


| 


神经 网 络 的 最 优化 





第 1 章 我 们 考察 了 什么 是 神经 网 络 以 及 它 的 设计 思想 。 本 


章 我 们 来 考察 在 数学 上 是 怎 档 








lE 确 定神 








经 网 络 的 。 
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% 澡 间 神经 网 络 的 参数 和 变量 





第 1 章 我 们 考察 了 神经 网 络 的 思想 和 工作 原理 。 不 过 ， 要 在 数学 上 
实际 地 确定 其 权重 和 偏 置 ， 必 须 将 神经 网 络 的 思想 用 具体 的 式 子 表示 出 
来 。 作 为 准备 ， 本 节 我 们 来 弄 清 权重 与 偏 置 的 变量 名 的 标记 方法 。 





























从 数学 上 看 ， 神 经 网 络 是 一 种 用 于 数据 分 析 的 模型 ， 这 个 模型 是 由 
权重 和 偏 置 确定 的 (1-4 节 )。 像 权重 和 偏 置 这 种 确定 数学 模型 的 常数 称 
为 模型 的 参数 。 

除了 参数 以 外 ， 数 据 分 析 的 模型 还 需要 值 根据 数据 而 变化 的 变量 ， 
但 是 参数 和 变量 都 用 拉丁 字母 或 希腊 字母 标记 ， 这 会 引起 混乱 。 而 区 分 
用 于 代入 数据 值 的 变量 和 用 于 确定 模型 的 参数 ， 对 于 逻辑 的 理解 是 不 可 
或 缺 的 。 证 我 们 通过 以 下 例子 来 看 一 下 。 























加 而 在 一 元 线性 回归 分 析 模型 中 ， 截 距 和 回归 系数 是 模型 的 参数 ， 自 变 
量 和 因 变 量 是 代入 数据 值 的 变量 (2- 12 节 )。 


参数 


/| 


可 归 方 程 y =p+gx 

















可 归 方 程 的 常数 p、g 为 参数 。 
变量 代入 数据 值 的 x、y 为 变量 。 











在 神经 网 络 中 ， 当 输入 为 mm、m 、23 时， 神经 单元 将 它们 如 下 整合 》 
加 权 输 入 =， 通过 激活 函数 a(z) 来 处 理 (1-3 节 )。 
2 =WI+wWo +TW3a +D (WwW ywW3 为 权重 ,5 为 偏 置 


a1= al(21) 


— 
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输入 、、 权 重 ” 偏 置 b 


X2 一 (= es 输出 il =a(2) 
A 
X3 








输入 层 的 神经 单元 的 图 ， 
权重 和 偏 置 为 参数 。 








此 时 ， 权 重 wj、w,、w; 与 偏 置 5b 为 参数 ， 输 入 xj、x,p、x3、 加 权 输 
入 zi1、 神 经 单元 的 输出 a 为 变量 ,变量 的 值 根据 学 习 数 据 的 学 习 实例 而 


变化 。 





在 实际 进行 神经 网 络 的 计算 时 ， 往 往 会 被 数量 庞大 的 参数 和 变量 所 
困扰 。 构 成 神经 网 络 的 神经 单元 的 数量 非常 大 ， 相 应 地 表示 偏 置 、 权 重 、 
输入 、 输 出 的 变量 的 数目 也 变 得 非常 庞大 。 因 此 ， 参 数 和 变量 的 表示 需 
要 统一 标准 。 本 节 我 们 就 来 进行 这 一 工作 。 

注 : 到 目前 为 止 的 表示 方法 都 没有 考虑 统一 性 。 








神经 网 络 领域 现在 还 处 于 发 展 的 早期 阶段 ， 还 没有 确立 标准 的 表示 
方法 。 下 面 我 们 将 介绍 一 下 多 数 文献 中 采用 的 表示 方法 ， 并 将 其 应 用 在 
本 书 中 。 





本 书 主要 考察 阶层 型 神经 网 络 (1-4 节 )。 这 个 网 络 按 层 区 分 神经 单 
元 ， 通 过 这 些 神经 单元 处 理 信号 ， 并 从 输出 层 得 到 结果 。 





下 面 我 们 就 来 确认 一 下 这 个 神经 网 络 中 的 变量 和 参数 的 表示 方法 。 

首先 ,我们 对 层 进 行 编号 ， 如 下 图 所 示 ， 最 左边 的 输入 层 为 屋 1， 隐 
藏 层 (中间 层 ) 为 层 2、 层 3…… 最 右边 的 输出 层 为 层 1 (这 里 的 1 指 last 
的 首 字 母 ， 表 示 层 的 总 数 )。 
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隐藏 层 





中 间 层 ) 输出 








输入 


省 
圳 




















慨 1 慨 2 慨 3 层 / 
阶层 型 神经 网 络 的 各 层 的 名 称 。 

















进行 以 上 准备 后 ， 我 们 将 如 下 表 所 示 来 表示 变量 和 参数 。 





符 号 含 义 

















表示 输入 层 ( 层 1) 的 第 i 个 神经 单元 的 输入 的 变量 。 由 于 输入 层 的 神经 
Xi 单元 的 输入 和 输出 为 同一 值 ， 所 以 也 是 表示 输出 的 变量 。 此 外 ， 这 个 变 
量 名 也 作为 神经 单元 的 名 称 使 用 



































从 层 1- 1 的 第 ;个 神经 单元 指向 层 7 的 第 /个 神经 单元 的 箭头 的 权重 。 请 
“ 注意 ?和 7 的 顺序 。 这 是 神经 网 络 的 参数 


























zl 表示 层 ! 的 第 j 个 神经 单元 的 加 权 输 入 的 变量 





bl 层 / 的 第 j 个 神经 单元 的 偏 置 。 这 是 神经 网 络 的 参数 





层 7 的 第 /个 神经 单元 的 输出 变量 。 此 外 ， 这 个 变量 名 也 作为 神经 单元 的 
名 称 使 用 





























表格 中 各 符号 的 含义 如 下 图 所 示 。 

























































































层 编号 
偏 置 及 输出 a 权重 Ww 人 -1 层 i 层 
和 Fa 7) 权重 Ww 
居 1 中 神经 单元 的 层 1-1 中 发 出 箭头 的 / 
位 置 神经 单元 的 位 置 
加 权 输 入 世 对 应 的 神经 单元 的 输出 为 神经 单元 与 输出 变量 共用 名 称 。 
al = alz) ( al(z) 为 激活 函数 )。 
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下 面 让 我 们 利用 第 1 章 考 察 过 的 回国 来 确认 一 下 上 表 中 的 变量 名 和 
参数 名 的 含义 。 























' 建立 一 个 神经 网 络 ， 用 来 识别 通过 4x3 像素 的 图 像 读 取 的 手写 
,数字 0 和 1， 其 中 像素 是 单 色 二 值 。 


ee ee ee a 




















输出 


省 























识别 通过 4x3 像素 
单 色 二 值 ) 的 图 像 读 
取 的 手写 数字 0、1 的 
神经 网 络 ( 1-4 节 )。 


























输入 层 相关 的 变量 名 





输入 层 为 神经 网 络 的 数据 入 口 ， 如 果 表 示 输 入 层 的 输入 的 变量 名 依 
次 为 xx, …， 由 于 输入 层 中 神经 单元 的 输入 和 输出 为 同一 值 ， 那 么 它们 也 
是 输出 的 变量 名 。 本 书 中 神经 单元 的 名 称 也 使 用 输入 变量 名 mx, … 来 表示 。 



































输入 层 








输入 层 的 神经 单元 的 输入 的 变量 
名 依次 为 zi 2， ,2 它们 也 
是 输出 的 变量 名 。 在 回国 中 ,， 它 
们 表示 代入 像素 值 的 变量 。 





























隐藏 层 、 输 出 层 相 关 的 参数 名 与 变量 


这 里 我 们 截取 神经 网 络 的 一 部 分 ， 并 按照 前 面 表格 中 的 约定 标注 变 
量 名 和 参数 名 ， 如 下 图 所 示 。 




















































输入 层 、 隐 藏 层 与 输出 层 的 简 
略图 。 我 们 根据 前 面 表格 中 的 
约 ; 























































































































符号 示例 的 含义 
层 2( 隐藏 层 ) 的 第 1 个 神经 单元 的 偏 置 
层 3 ( 输出 层 ) 的 第 1 个 神经 单元 的 偏 置 
从 层 1 的 第 2 个 神经 单元 指向 层 2 的 第 1 个 神经 单元 的 箭头 的 权重 ， 也 就 
是 层 2( 隐藏 层 ) 的 第 1 个 神经 单元 分 配给 层 1 ( 输入 层 ) 的 第 2 个 神经 单 
元 的 输出 的 权重 
从 层 2 的 第 2 个 神经 单元 指向 层 3 的 第 1 个 神经 单元 的 箭头 的 权重 ， 也 就 
是 层 3 (输出 层 ) 的 第 1 个 神经 单元 分 配给 层 2( 隐藏 层 ) 的 第 2 个 神经 单 
元 的 输出 az 的 权重 
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的 第 2 个 神经 单元 的 箭头 的 权重 为 ws。 此 
外 ， 输 出 层 的 第 2 个 神经 单元 的 输出 为 a; ， 偏 置 为 b; 。 


| 


阿 辐 右 图 为 前 面 出 现 过 的 神经 网 络 的 一 部 分 。 输入 层 隐藏 导 
忆 为 输入 层 ( 层 1) 的 第 3 个 神经 单元 的 输入 和 输 。“' 屋 1) Le 
出 。 从 这 个 神经 单元 指向 隐藏 层 ( 层 2 ) 的 第 权重 ww 

2 个 神经 单元 的 箭头 的 权重 为 好 。 此 外 ， 隐 茂 
层 的 第 2 个 神经 单元 的 输出 为 a? ， 偏 置 为 b? 。 bd 
' 右 图 为 前 面 出 现 过 的 神经 网 络 的 一 部 ' 
, 分 。 请 说 明 图 中 必 、 霹 ;, 、 避 、 妈 的 含义 。 J (5 
3 % Sh 权重 w3 1 
' 解 四 为 隐藏 层 ( 层 2) 的 第 3 个 神经 单元 1 
' 的 输出 。 从 这 个 神经 单元 指向 输出 层 ( 层 3) ' 
1 by 1 





在 前 面 讲解 变量 名 的 表格 中 ，x;、z;、 


2 


为 变量 ， 它 们 的 值 根据 学 习 
数据 的 学 习 实 例 而 变化 。 通 过 回国 | 来 说 明 的 话 ， 若 具体 地 给 出 了 学 习 数 
据 的 一 个 图 像 ， 则 x、z/ 、al 就 变 成 了 数值 ， 而 不 是 变量 。 

加 四 在 回国 中 ， 候 设 给 出 了 下 面 的 图 像 作为 学 习 实例 。 在 将 这 个 图 像 输 
入 到 神经 网 络 中 时 ， 求 隐藏 层 ( 层 2 ) 的 第 1 个 神经 单元 的 加 权 输 入 也 
的 值 。 





灰色 部 分 为 1， 白 色 部 分 为 0， 于 是 可 得 = 1， 


Xx2=1, xs=0, xa=0, xs=1; xz6=0,x7=0,xe=1， 


























Xo = 0 Xio= Om NN 0s 
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根据 前 面 的 变量 名 的 一 般 约定 ， 加 权 输 入 好 可 以 如 下 表示 。 





2 2 2 2 2 
2 = WX + WX + WiaXy + + WX + (1) 





由 于 读 取 图 像 后 ,输入 层 的 x, x2,…, xn 的 值 就 确定 了 ， 所 以 加 权 输 
入 好 的 值 可 以 像 下 面 这 样 确定 。 






































2 2 2 2 2 
下 的 值 =wi xl1+w xl1+wyx0+…+wi, xX0+Db 


_ 2 2 2 2 2 
=Wit+wis + ws + ws + w+h 


(2) 


这 样 一 来 ， 加 权 输入 于 的 具体 值 就 可 以 通过 式 (2) 给 出 。 这 就 是 加 加 
的 解答 。 
注 : 权重 ( 局 等 ) 和 偏 置 及 为 参数 ， 它 们 都 是 常数 。 在 不 清楚 变量 和 常数 的 关系 时 ， 请 
参考 2- 12 节 的 回归 分 析 的 相关 内 容 ( 参考 本 节 末尾 的 备注 )。 
































从 四 四 中 可 以 知道 ， 我们 需要 区 分 变量 x,、z/ 、al 的 符号 与 它们 的 


值 的 符号 。 在 后 面 计算 代价 函数 时 ， 这 一 点 非常 重要 。 在 给 定 学 习 数 据 
的 第 个 学 习 实例 时 ， 各 个 变量 的 值 可 以 如 下 表示 。 








x 人]: 输入 层 的 第 i 个 神经 单元 的 输入 值 ( = 输出 值 ) 
zi[ 人 ]: 层 1 的 第 j 个 神经 单元 的 加 权 输入 的 值 


oaj[ 妇 : 层 1 的 第 j 个 神经 单元 的 输出 值 























注 : 这 种 表示 方法 是 以 C 语言 等 编程 语言 的 数组 变量 的 表示 方法 为 依据 的 。 


夺回 在 四 加 中， 假设 输入 图 像 为 学 习 数 据 的 第 7 张 图 像 。 这 时 ， 根 据 
(3) 的 约定 ,输入 层 的 变量 的 值 以 及 加 权 输 入 z? 的 值 可 以 如 下 表示 。 








为 [7]=1 加 [7]=1 xs[7]=0, x{7]=0, xs[7]=1, xe[7]=0, 
x7[7]=0, xsL7]=1, xol7]=0, mol7]=0, xul7]=1, 17]=0, 


2 2 2 2 2 2 2 
Zz1[7]=wi tw + ws + Ws twint+oh 








以 上 为 四 加 的 解答 。 它 们 的 关系 如 下 图 所 示 。 
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加 权 输 入 
将 第 7 个 图 像 输入 
隐藏 层 ( 层 2 ) 神经 网 络 时 变量 值 
的 表示 方法 。 
加 日 在 [中 ， 输 出 层 ( 层 3 ) 的 第 j 个 神经 单元 的 加 权 输 入 为 2 ， 输 
出 变量 为 a; ， 在 将 学 习 数 据 的 第 1 张 图 像 作为 图 像 实例 输入 时 ， 输 出 层 
( 层 3 ) 的 第 7 个 神经 单元 的 加 权 输 入 的 值 为 = 上 ， 输 出 值 为 wj[1] ， 如 下 
图 所 示 。 
第 1 张 图 像 
变量 什 
人 = “L 。 输 入 第 1 张 图 像 时 输出 层 的 
2 z)[1] ” 值 的 表示 方法 。 
到 目前 为 止 ， 本 书 中 的 示意 图 都 是 将 参数 和 变量 写 在 一 个 神经 单元 
的 周围 ， 这 就 导致 图 看 起 来 非常 吃力 。 因 此 ， 之 后 我 们 将 根据 情况 使 用 
如 下 所 示 的 标 有 参数 和 变量 的 神经 单元 示意 图 。 
权重 i 
a my 右 图 将 权重 w,、 加 权 输 入 zi、 
a . 绍 偏 置 凡 和 输出 值 以 紧凑 地 整 
输出 a \ | 用 
合 在 了 一 起 。 
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利用 这 种 整合 了 参数 和 变量 的 示意 图 
单元 的 关系 ， 如 下 所 示 。 





就 可 以 简洁 地 表示 两 个 神经 



























































慨 二 1 的 第 ;个 层 /的 第 
本 神经 单 
部 
利用 整合 了 参数 和 变量 的 示 
意图 来 表示 两 个 神经 单元 的 
So 和 于 3 器 归 分 析 中 的 变量 与 变量 值 的 关系 





0 可 归 方 程 如 
下 所 示 。 























y=px+9 (p、9 为 常数 ) (4) 


其 中 , p 为 回归 系数 ，g 为 截 距 。 另 外 ，x 为 
9 变量 ,yy 为 因 变量 ， 用 于 代入 数据 。 

在 2-12 节 介绍 的 回归 分 析 中 ， 如 右 表 
所 示 ，x、y 的 变量 值 标 记 为 六 、Je 大 表示 数 
据 的 第 个 元 素 。 例 如 ， 第 1 个 元 素 表示 为 x1、y1。 

在 神经 网 络 中 ， 第 个 变量 值 不 能 像 回归 分 析 那 样 用 下 标 形式 表示 ， 这 
是 因为 下 标 太 多 了 。 实 际 上 ， 若 对 输入 变量 x, 、 加 权 输 入 变量 z; 、 输 出 变量 
a 以 下 标 形式 附加 “第 张 图 像 ”这 样 的 信息 ， 看 起 来 会 非常 吃力 。 
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% 了 起? 几 神经 网 络 的 变量 的 关系 式 

















要 确定 神经 网 络 ， 就 必须 在 数学 上 确定 其 权重 和 偏 置 ， 为 此 需要 用 
具体 的 式 子 来 表示 神经 单元 的 变量 的 关系 。 我 们 利用 上 一 节 的 约定 来 实 
际 尝试 一 下 。 

与 上 一 节 一 样 ， 我 们 通过 第 1 章 考 察 过 的 如 下 回国 来 展开 讨论 。 






































人 


建立 一 个 神经 网 络 ， 用 来 识别 通过 4x 3 像素 的 图 像 读 取 的 手写 


! 数字 0 和 1， 其 中 像素 是 单 色 二 值 。 

























































































加 末 的 解答 示例 的 神经 网 络 的 简略 图 。 神 经 单元 名 使 用 的 是 输出 变量 名 。 





























输入 层 的 关系 式 


输入 层 ( 层 1 ) 神经 网 络 的 信息 入 口 。 这 个 层 的 第 i 个 神经 单元 的 输 
入 与 输出 为 同一 值 x(i= 1,2,…, 12 )。 

下 面 ， 我 们 将 变量 名 w' 的 约定 (3-1 节 ) 推广 并 应 用 到 输入 层 。 将 
中 定义 为 层 1 的 第 7 个 神经 单元 的 输出 值 ， 由 于 输入 层 为 层 1( 即 1=1)， 
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所 以 前 面 的 x 可 以 如 下 表示 。 


Xi=a, 


i 





这 个 表示 方法 在 后 面 的 误差 反 向 传播 法 中 会 用 到 。 


我 们 来 写 出 回国 中 的 隐藏 层 ( 层 2) 相关 的 变量 、 参 数 之 间 的 关系 
式 。 以 a(z) 作为 激活 函数 ,根据 1-4 节 ， 变 量 和 参数 的 关系 可 以 表示 为 
如 下 式 子 。 


2 2 2 2 2 
21 = WX +t WX 十 Wi323 ++ WX + 

2 入 2 2 2 2 
22 = WA + WaNy + WaXs 十 十 YX + D2 (1D) 


2 2 记 2 2 2 
Z3 = WN + WoXy + WaX3 + + W312X12 + D3 


2 2 2 2 到 
ai = a(27), a; = a(z;), 0 = a(z;) 


输入 层 ( 层 1) ”隐藏 层 ( 层 2 ) 
































图 中 给 出 了 隐藏 层 ( 层 2 ) 的 
Cs) 第 1 个 神经 单元 的 加 权 输 入 
z? 和 输出 。 





下 面 我 们 来 写 出 回国 中 的 输出 层 ( 层 3) 相关 的 变量 、 参 数 之 间 的 
关系 。 与 式 (1) 一 样 ， 如 下 所 示 。 
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Ee ER 
3 = Wa 十 Wia02 十 Wi303 +h 








3 3 2 3 2 ee 
22 = Wa + way + Wad3 十 已 (2) 


3 3 3 3 
4 二 al(2i 点 02 二 4(22) 



































到 中 给 出 了 输出 层 ( 层 3 ) 的 
第 2 个 神经 单元 的 加 权 输 入 z3 


和 输出 qi 。 
































从 以 上 的 式 (1)、 式 (2) 可 以 知道 ， 在 理解 关系 式 时 要 常常 回想 起 神 
经 网 络 ， 这 一 点 十 分 重要 。 否 则 ， 这 些 关 系 式 看 起 来 就 像 是 蚂蚁 的 队列 ， 





ee 从 神经 网 络 的 变量 的 矩阵 表示 
如 果 将 式 (1)、 式 (2) 用 和 矩阵 ( 2-5 节 ) 来 表示 的 话 ， 就 很 容易 看 清 式 子 
的 整体 关系 。 下 面 我 们 就 试 着 将 式 (1)、 式 (2) 用 和 矩阵 来 表示 。 


















































如 
加 2 六 2 
a Ww Ws wiz | 2s b 
2 网 可 2 
22 [= W2 Wy Ws w|ix I+ 
2 2 2 2 2 
25 M3 2 We b; 
X12 
2 
3 3 可 a 四 
3 wi 各 Db 
= | 
3 3 3 3 2 pb; 
2 Wi Wi Ws3 忆 7 
03 






































计算 机 编程 语言 中 都 会 有 矩 阵 计 算 工 具 ， 所 以 将 关系 式 变形 为 矩阵 形式 
会 有 助 于 编程 。 另 外 ,用 矩阵 表示 关系 式 , 还 具有 容易 推广 到 一 般 情 形 的 好 处 ， 
因为 式 子 的 全 部 关系 变 得 很 清楚 。 
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< 环 恒 学 习 数 据 和 正解 





在 神经 网 络 进 行 学 习 时 ， 为 了 佑 计 神 经 网 络 算出 的 预测 值 是 否 恰 当 ， 
需要 与 正解 进行 对 照 。 本 节 我 们 就 来 考察 正解 的 表示 方法 。 


回归 分 析 的 学 习 数 据 和 正解 


利用 事先 提供 的 数据 (学习 数据 ) 来 确定 权重 和 偏 置 ， 这 在 神经 网 
络 中 称 为 学 习 (1-7 贡 )。 学 习 的 逻辑 非常 简单 ， 使 得 神经 网 络 算出 的 预 
测 值 与 学 习 数 据 的 正解 的 总 体 误 差 达 到 最 小 即 可 。 

不 过 ， 第 一 次 听 到 “预测 值 ”“ 正 解 ”时 ， 可 能 难以 想象 它们 的 关 
系 ， 这 种 情况 下 可 以 利用 回归 分 析 。 下 面 我 们 来 考察 一 下 下 面 的 四 下 |。 


rR 


' 阿 加 如 右 表 所 示 ， 已 知 3 名 学 生 的 数学 

! 成 绩 和 理科 成 绩 。 以 数学 成 绩 为 自 变量 ，| 1 7 

求 用 于 分 析 这 些 数据 的 线性 回归 方程 。 | 2 5 4 
3 8 





























Re 


注 : 这 个 问题 的 解答 请 参考 下 一 节 。 此 外 ， 关 于 回归 分 析 的 内 容 请 参考 2-12 节 。 


解 回归 分 析 的 学 习 数 据 是 加 大 的 表 中 的 全 部 数据 。 数 学 成 绩 和 理科 成 绩 
分 别 用 x、y 表示 ， 线 性 回归 方程 如 下 所 示 。 














y=px+q (p、9 为 常数 ) (1) 


我 们 以 第 1 个 学 生 为 例 来 考察 。 这 个 学 生 的 数学 成 绩 为 7 分 ， 利用 
式 (1) 对 理科 成 绩 进行 预测 ， 如 下 所 示 。 


7P+9 


这 就 是 第 1 个 学 生 的 理科 成 绩 的 预测 值 。 因 为 这 个 学 生 的 实际 理科 
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成 绩 为 8 分 ， 所 以 这 个 8 分 就 是 预测 值 对 应 的 正解 。 
一 般 地 ， 将 第 个 学 生 的 数学 成 绩 和 理科 成 绩 分 别 表示 为 x,、y 
(k=1,2,3 )， 则 px +g 为 预测 值 ， yi 为 正解 ， 二 者 的 关系 如 下 图 所 示 。 





正解 ?1 回归 直线 
“es y=px+g 





























第 个 学 生 的 数学 成 绩 和 理科 成 
， ” 绩 分 别 为 x,、y, 时 预测 值 与 正解 
的 关系 。 














在 回归 分 析 的 情况 下 ， 如 上 所 示 ， 由 于 全 部 数据 都 整合 在 表格 里 ， 
所 以 预测 值 和 正解 的 关系 很 容易 理解 。 而 在 神经 网 络 的 情况 下 ， 则 通常 
无 法 将 预测 值 和 正解 整合 在 一 张 表 里 。 

例如 ， 我 们 来 考虑 下 面 的 回回 ， 该 何 题 在 前 两 节 也 出 现 过 。 


i i i Te dd i ee i i ee a i te a 


' 加 四 建立 一 个 神经 网 络 ， 用 来 识别 通过 4x3 像素 的 图 像 读 取 的 手写 
,数字 0 和 1， 其 中 像素 是 单 色 二 值 。 


解 这 里 以 下 面 的 3 张 图 像 作为 学 习 实 例 。 我 们 可 以 判断 出 数字 依次 是 0、 
1、0， 但 刚刚 建立 好 的 神经 网 络 则 无 法 做 出 判断 。 




















加 


像 模 式 














对 于 刚刚 建立 好 的 神经 网 络 
而 言 ， 图 像 的 含义 不 明 。 

















因此 ， 需 要 将 图 像 的 含义 ， 也 就 是 正解 教 给 神经 网 络 ， 如 下 所 示 。 
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1 号 2 号 

“出 二 
_ 学 习 数据 的 图 像 
[0| ol 


那么 ， 如 何 将 这 些 正 解 教 给 神经 网 络 呢 ? 这 个 问题 不 像 前 面 的 回归 
分 析 的 例子 那样 简单 ， 需 要 想 点 办 法 来 解决 。 





史 























二 | 











神经 网 络 的 预测 值 用 输出 层 神经 单元 的 输出 变量 来 表示 。 以 加 目的 
神经 网 络 为 例 ， 它 的 输出 层 的 神经 单元 如 下 图 所 示 (3-1 节 、3-2 龙 )。 





圳 


-0 输出 
CE 
3G 一 > 
: Sg 四 加 的 神经 网 络 的 简略 图 。 输 出 层 的 第 1 个 
3@ 神经 单元 的 目标 是 检测 出 数字 0， 第 2 个 神 
人 经 单元 的 目标 是 检测 出 数字 1。 此 外 ， 神 经 
单元 名 使 用 的 是 输出 变量 名 。 


























我 们 希望 输出 层 的 第 1 个 神经 单元 必 对 手写 数字 0 产生 较 强 反应 ， 
第 2 个 神经 单元 4 对 手写 数字 1 产生 较 强 反应 (1-4 节 )。 使 用 Sigmoid 
函数 作为 激活 函数 时 ， 预 测 的 值 如 下 表 所 示 。 














a 接近 1 的 值 
a 接近 0 的 值 


接近 0 的 值 
接近 1 的 值 
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如 上 表 所 示 ， 输 出 变量 有 2 个 ， 分 别 为 四 、Q@3 。 而 回回 的 正解 只 
有 1 个 , 为 0 或 1。 那 么 如 何 将 1 个 正解 和 2 个 输出 变量 对 应 起 来 呢 ? 


= 


对 于 这 个 问题 ， 解 决 方法 是 准备 2 个 变量 t,、b 作为 正解 变量 ,分 别 
对 应 输出 层 的 2 个 神经 单元 。 


Gy > i 
Cr > 
妃 1， 


一 
了 t 为 teacher 的 首 字 母 。 


对 照 输出 层 神 经 单元 的 输出 变量 四、a? 定义 变量 4、t， 如 下 所 示 。 












































0 的 正解 变量 
1 的 正解 变量 








下 图 所 示 为 2 个 图 像 实例 的 各 变量 值 。 














数字 0 输出 层 正解 数字 1 输出 层 正解 


CD <> n=1 @) <> n=0 
a i 








Bl 





以 上 就 是 神经 网 络 的 正解 的 表示 方法 。 通 过 这 样 的 方式 来 定义 正 
解 ， 就 可 以 像 下 面 这 样 表示 神经 网 络 算出 的 预测 值 和 正解 的 平方 误差 
(2=12 











Fa) + O) 


将 
ht 








h， 系 数 了 是 为 了 方便 后 面 的 计算 。 
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Bi 人 号 交叉 类 
本 书 使 用 上 述 式 (2) 的 平方 误差 作为 实际 数据 和 理论 值 的 误差 指标 。 虽 
然 这 个 指标 容易 理解 ， 但 由 于 存在 计算 收敛 时 间 长 的 情况 ， 所 以 也 有 难点 。 
为 了 克服 这 个 缺陷 ， 人 们 提出 了 各 种 各 样 的 误差 指标 ， 其 中 特别 有 名 的 一 个 
指标 就 是 交叉 焙 。 
交叉 炉 将 上 述 误 差 函 数 (2) 替换 为 下 式 。 











岂 
























































= loga +(1—t)log(l—a)}+{loga, +(l—t,)log(l—a,)}] 
n 














上 式 中 , 7 为 数据 的 规模 。 利 用 这 个 交叉 炉 和 Sigmoid 函数 ， 可 以 消除 Sigmoid 
函数 的 宛 长 性 ， 提 高 梯度 下 降 法 的 计算 速度 。 
此 外 ， 交 叉 炳 来 源 于 信息 论 中 焙 的 思想 。 
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“各 痢 神经 网 络 的 代价 函数 














向 神经 网 络 提供 学 习 数 据 ， 并 确定 符合 学 习 数 据 的 权重 和 偏 置 ， 这 
个 过 程 称 为 学 习 。 这 在 数学 上 一 般 称 为 最 优化 ， 最 优化 的 目标 函数 是 代 
价 函 数 。 本 闻 我 们 就 来 看 一 下 代价 函数 的 相关 内 容 。 


















































表示 模型 准确 度 的 代价 函数 


用 于 数据 分 析 的 数学 模型 是 由 参数 确定 的 。 在 神经 网 络 中 ， 权 重 和 
偏 置 就 是 这 样 的 参数 。 通 过 调整 这 些 参 数 ， 使 模型 的 输出 符合 实际 的 数 
据 (在 神经 网 络 中 就 是 学 习 数据 )， 从 而 确定 数学 模型 ， 这 个 过 程 在 数学 
上 上 称 为 最 优化 〈2-12 节 )， 在 神经 网 络 的 世界 中 则 称 为 学 习 (1-7 节 )。 
不 过 ， 参 数 是 怎样 确定 的 呢 ? 其 原理 非常 简单 ， 具 体 方法 就 是 ， 对 
于 全 部 数据 ， 使 得 从 数学 模型 得 出 的 理论 值 (本 书 中 称 为 预测 值 ) 与 实 
际 值 的 误差 达到 最 小 。 




















本 从 数学 模型 求 出 的 
实际 值 。。 理论 值 








归 对 于 全 部 数据 ， 使 实际 值 与 
TTTTTTTTTTTTITTTT 预测 值 ( 即 理 论 值 ) 的 误差 
达到 最 小 ， 以 此 来 确定 数学 

上 |- 训 关 | 模型 的 参数 。 














在 数学 中 ， 用 模型 参数 表示 的 总 体 误差 的 函数 称 为 代价 函数 ， 此 外 
也 可 以 称 为 损失 函数 、 目 的 函数 、 误 差 函 数 等 。 如 前 所 述 (2-12 节 )， 本 
书 采 用 “代价 函数 ”这 个 名 称 。 





回归 分 析 的 回顾 
我 们 可 以 使 用 2-12 节 和 考察 的 回归 分 析 来 理解 最 优化 的 含义 和 代价 函 
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数 。 这 里 我 们 通过 下 面 的 加 加 来 回顾 一 下 回归 分 析 。 

' 四 副 如 右 表 所 示 ， 已 知 3 名 学 生 的 
' 数学 成 绩 和 理科 成 绩 。 根 据 这 些 数 
, 据 ， 求 以 数学 成 绩 为 自 变量 的 线性 


























回归 方程 。 


te 











注 : 这 个 加 时 在 2-12 节 作 为 回国 出 现 过 。 此 外 ， 在 上 一 节 也 提 到 过 。 


解 数学 成 绩 和 理科 成 绩 分 别 记 为 x、y， 则 线性 回归 方程 如 下 所 示 。 














y=pxX+g (p、9 为 常数 ) 





第 个 学 生 的 数学 和 理科 成 绩 分 别 记 为 xi、yi。 于 是 ， 这 名 学 生 的 实 
际 理科 成 绩 与 从 回归 分 析 得 到 的 理科 成 绩 的 预测 值 pxx + gq 的 误差 ex 可 
以 如 下 表示 (k= 1,2, 3 )。 





ek 二 J 一 (PXk+9) (p、9 为 常数 ) (1) 
以 上 关系 可 以 通过 下 表 具 体 地 表示 出 来 。 
编 号 | 数学 成 绩 x 理科 成 绩 y 预测 值 误差 e 





















































根据 式 (1),， 求 得 第 个 学 生 的 实际 成 绩 与 预测 值 的 平方 误差 C:， 如 


下 所 示 。 








1 2 1 2 
Ce 本 (et) = 3 (Pr rg)} (=1、2、3) (2) 





注 : 系数 是 为 了 方便 进行 导数 计算 ， 这 个 系数 的 不 同 不 会 影响 结论 。 








不 过 ， 对 于 如 何 定义 全 部 数据 的 误差 ， 有 各 种 各 样 的 方法 ， 其 中 最 
标准 、 最 简单 的 方法 就 是 求 平方 误差 的 总 和 。 利 用 式 (2)， 平 方 误差 的 总 
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和 可 以 如 下 表示 。 这 就 是 本 书 中 的 代价 函数 Cr(2-11 节 )。 

















Cr+=C+C,+C, 
， 3 
=7 8-0p+o) +7{4-(5p+9)) + -0p+q)} 0) 
使 得 Cr 达到 最 小 的 p、g 满足 下 式 (2-12 闻 )。 
oc, 
=_7(8—_(7p+g9)} -5{4-(5p+9)} -9{8-(0p+g)}=0 
Dp 
(4) 





二 {8—(7p+9)}—{4—(5p+qg)}—{8—(9p+9)}=0 


整理 得 


155p+21g=148、21lp+3g=20 





解 这 个 联 立方 程 组 ， 可 得 p= 1,，gq=-1/3， 于 是 回归 方程 为 




























































































y=x= 二 
3 
人 
10 
@ |- 
5 ~ 
§ 

> 

0 4 6 8 10 表示 回归 方程 的 回归 直线 。 
EEE GE 于 3 代价 西数 的 差异 


很 多 函数 都 可 以 作为 代价 函数 。 如 前 所 述 ( 3-3 节 )， 神 经 网 络 的 世界 中 
有 名 的 代价 函数 是 交叉 焙 。 不 论 采 用 怎样 的 代价 函数 ， 神 经 网 络 学 习 的 方法 
与 本 例题 都 是 相同 的 。 
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最 优化 的 基础 : 代价 函数 的 最 小 化 


在 加 加 的 回归 分 析 中 ， 确 定数 学 模型 的 参数 是 回归 系数 忆 和 截 距 q。 
它们 通过 将 代价 函数 (3) 最 小 化 来 确定 。 这 个 过 程 称 为 最 优化 。 

相应 地 ， 确 定神 经 网 络 的 数学 模型 的 参数 是 权重 和 偏 置 。 重 要 的 是 ， 
确定 权重 和 偏 置 的 数学 原理 与 回归 分 析 是 相同 的 ， 具 体 来 说 ， 就 是 使 得 
从 神经 网 络 得 出 的 代价 函数 Cr 达到 最 小 。 最 优化 的 思想 可 以 形象 地 表示 
为 下 图 。 

















UD 















































最 优化 的 思想 : 确定 权重 和 偏 
的 原理 与 回归 分 析 相 同 。 求 使 得 
表示 误差 总 和 C1 的 代价 函数 达到 
最 小 的 最 优 的 参数 。 












































这 里 我 们 来 对 比 一 下 加 加 的 回归 方程 与 3-2 节 的 回国 中 的 神经 网 络 
(简略 图 )， 如 下 图 所 示 。 











可 归 方 程 

















神经 网 络 





可 归 分 析 和 神经 网 络 中 
确定 模型 的 方式 是 相同 
的 。 神 经 网 络 的 权重 、 
偏 置 相当 于 回归 方程 的 
输入 层 隐藏 层 输出 可 归 系 数 、 截 距 。 
























































ll 
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神经 网 络 的 代价 函数 


接 下 来 需要 求 出 神经 网 络 的 代价 函数 的 具体 式 子 。 为 了 详细 地 展开 
讨论 ， 我 们 来 考虑 前 面 出 现 过 的 下 述 回 加。 

' 了 G 同 已 知 一 个 用 于 识别 通过 4 x 3 像素 的 图 像 读 取 的 手写 数字 0、1 的 ， 
， 神经 网 络 (下 图 )， 求 它 的 代价 函数 Cr。 学 习 数据 为 64 张 图 像 ， 像 素 
| 为 单 色 二 值 。 此 外 ， 学 习 数 据 的 实例 收录 在 附录 A 中 。 










































































作为 四 目的 解答 
示例 的 神经 网 络 
( 简略 图 )(3-1 
节 s 3=2 节 )。 此 
外 ， 这 里 的 神经 
单元 名 使 用 的 是 
输出 变量 名 。 






























































具体 来 说 ， 神 经 网 络 算出 的 预测 值 用 输出 层 的 神经 单元 的 输出 变量 a; 、 
局 来 表示 。 设 这 些 输出 变量 对 应 的 正解 为 1、t;。 于 是 ， 预 测 值 与 正解 的 
平方 误差 C 可 以 如 下 表示 (3-3 节 )。 

















C {ha +(e (5) 


以 第 张 图 像 作为 学 习 实例 输入 时 ， 将 平方 误差 C 记 为 C:， 如 下 所 示 。 











Cx tt a[k]) + 6k] a2[k])} (k=1, 2, .…, 64) (6) 


式 中 的 64 来 源 于 四 四 题 意 中 的 图 像 数 目 。 此 外 ,关于 #4[k]、b[K]、aji[K]、 
ai[k] 的 表示 方法 ， 请 参考 3-1 节 。 

















注 : 式 侣 : 式 罗 的 系数 在 不 同 的 文献 中 会 有 所 差异 ， 但 最 优化 的 结果 是 相同 的 。 
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式 (6) 的 含义 如 下 所 示 。 




















加 呈 


( 输入 层 ) ( 隐藏 层 ) ( 输 


Oe 正解 
ee OO— | | 
(©) Se + 
一 > | Gu-aty | <— 50 
Se) 平方 误差 C， 
-DPI 一人 [六 
式 (6) 的 含义 。 
对 于 全 部 学 习 数据 ， 将 式 (6) 加 起 来 ， 就 得 到 代价 函数 Cr。 























CT =CI+C2 十 … 十 Ce (7) 
式 (7) 的 含义 如 下 所 示 。 





























































































































代价 函数 Cr = CT 二 Ce+… 十 Ca 
式 (7) 的 含义 : 代价 函数 的 求法 。 关 于 全 部 数据 的 平方 误差 的 总 和 就 是 代价 函数 。 
此 外 ， 无 法 用 权重 和 偏 置 的 具体 的 式 子 来 表示 式 (7)。 
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以 上 就 是 代价 函数 的 求法 的 全 部 内 容 。 剩 下 的 工作 就 是 确定 使 得 代 
价 函数 Cr 达到 最 小 的 参数 ( 权重 和 偏 置 ) 因为 确定 参数 的 方法 需要 较 
长 篇 幅 来 讲述 ， 所 以 我 们 到 下 一 章 再 详细 讨论 这 个 话题 。 
注 ; 的 解答 式 (7) 相当 于 前 面 回 归 分 析 的 加 加 的 式 (3)。 























下 面 我 们 来 考察 一 下 确定 回回 的 神经 网 络 的 模型 的 参数 个 数 ， 并 汇 
总 在 下 表 中 。 















| 
到 
a 
[> 
x 
LULD 


权重 隐藏 层 的 神经 单元 的 个 数 为 3 个 ,输入 层 的 12 个 神经 
隐藏 层 单元 都 有 箭头 指向 隐藏 层 的 各 个 神经 单元 
偏 置 3 隐藏 层 的 神经 单元 的 个 数 为 3 个 
机 是， | “33 输出 层 的 神经 单元 的 个 数 为 2 个 ， 隐 藏 层 的 3 个 神经 
输出 层 单元 都 有 箭头 指向 输出 层 的 各 个 神经 单元 
输出 层 的 神经 单元 的 个 数 为 2 个 











ml 
oh 



































根据 上 表 ， 可 以 求 得 参数 的 总 数 ， 如 下 所 示 。 


参数 的 总 数 = (12x3+3) + (3x2+2) =47 


我 们 在 2-12 节 考察 过 ， 如 果 数 据 的 规模 ( 即 构成 数据 的 元 素 个 数 ) 
小 于 确定 数学 模型 的 参数 个 数 的 话 ， 就 无 法 确定 模型 。 因 此 在 回回 中 ， 
学 习 用 的 图 像 至 少 需要 47 张 。 


虽然 神经 网 络 和 回归 分 析 确 定 模型 的 原理 相同 ， 但 是 它们 也 存在 以 
下 差异 。 
GD 相 比 回归 分 析 中 使 用 的 模型 的 参数 ， 神 经 网 络 中 使 用 的 参数 的 
数目 十 分 巨大 。 
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(线性 回归 分 析 中 使 用 的 函数 为 一 次 式 ， 而 神经 网 络 中 使 用 的 函 
数 ( 激活 函数 ) 不 是 一 次 式 。 因 此 ， 在 神经 网 络 的 情况 下 ， 代 
价 函数 变 得 很 复杂 。 
差异 (i) 反映 在 式 (3) 和 式 (7) 中 。 回 归 分 析 中 作为 代价 函数 的 式 (3) 
可 以 用 参数 的 函数 表示 出 来 。 而 在 神经 网 络 的 情况 下 ， 如 式 (7) 所 示 ， 不 
能 用 参数 ( 权重 和 偏 置 ) 的 式 子 将 代价 函数 表示 出 来 。 非 要 写 出 来 的 话 ， 
式 子 会 变 得 无 比 复 杂 。 
差异 (让 i) 也 反映 在 式 (3) 和 式 (7) 中 。 由 于 式 (3) 为 简单 的 二 次 式 ， 所 
以 可 以 简单 地 进行 求 导 ， 容 易 求 得 式 (4) 的 结果 。 然 而 ， 如 果 简 单 地 对 式 
(7) 进行 求 导 ,计算 将 变 得 非常 麻烦 。 而 且 ， 由 于 引入 了 激活 函数 的 导数 ， 
所 以 得 到 的 结果 不 会 漂亮 。 
鉴于 存在 以 上 差异 ， 相 比 回归 分 析 ， 神 经 网 络 需 要 更 强大 的 数学 武 
器 ， 其 中 代表 性 的 一 种 方法 就 是 误差 反 向 传播 法 。 我 们 将 在 下 一 章 具 体 


介绍 。 

































































用 Excel 将 代价 函数 最 小 化 


幸运 的 是 ， 对 于 回回 这 样 简单 的 神经 网 络 ， 用 Excel 等 通用 软件 就 
可 以 直接 将 代价 函数 式 (7) 最 小 化 。 即 使 不 知道 软件 用 了 什么 数学 方法 也 
不 要 紧 。 在 下 一 他， 为 了 理解 神经 网 络 的 最 优化 ， 也 就 是 神经 网 络 的 学 
习 的 含义 ， 我 们 将 试 着 用 Excel 将 代价 函数 最 小 化 ， 求 出 权重 和 偏 置 。 




















92905599 全 激 活 函数 用 单位 阶 跃 函数 会 如 何 呢 ? 

我 们 在 第 1 章 考 察 过 ， 作 为 神经 网 络 的 出 发 点 的 激活 函数 是 单位 阶 跃 函 
数 。 然 而 ， 如 果 使 用 单位 阶 路 函数， 本 节 所 考察 的 代价 函数 的 最 小 化 方法 就 
不 会 被 发 现 。 因 此 ，Sigmoid 函数 等 可 导 函 数 成 为 了 激活 函数 的 主角 。 
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< 机 :调用 Excel 休 验 神经 网 络 





到 目前 为 止 ， 我 们 用 同一 个 例题 考察 了 神经 网 络 。 本 节 我 们 就 用 
Excel 来 确认 这 个 神经 网 络 是 实际 存在 并 且 发 挥 作用 的 。 对 于 例题 那 种 程 
度 的 简单 神经 网 络 ， 用 Excel 就 可 以 直接 确定 权重 和 偏 置 。Excel 是 一 个 
便于 直观 地 看 清理 论 结构 的 优秀 工具 。 下 面 我 们 就 用 Excel 来 实际 体验 一 
下 神经 网 络 。 





















































用 Excel 求 权 重 和 偏 置 


真正 的 神经 网 络 是 不 可 能 用 Excel 来 确定 其 权重 和 偏 置 的 。 然 而 ， 如 
果 是 简单 的 神经 网 络 ， 因 为 它 的 参数 个 数 比较 少 ， 所 以 可 以 用 Excel 的 标 
准 插件 求解 器 简单 地 执行 最 优化 操作 。 为 了 确认 目前 为 止 考察 过 的 内 容 ， 
本 节 我 们 利用 下 面 的 回国 来 实际 地 求 出 神经 网 络 的 权重 和 偏 置 ， 并 体验 
神经 网 络 的 行为 。 

回国 对 于 3-1 节 一 3-4 节 的 回国 中 的 神经 网 络 ， 用 Excel 来 确定 它 ， 
的 权重 和 偏 置 。 学 习 数 据 的 64 张 图 像 实例 收录 在 附录 A 中 


0 2 et ee ee es ie ed ek ae fede et el oh Se ed eh a he .Poy de oe ed ed i a eee et Nae et a 2 2 
































[e] 


我 们 一 步 一 步 地 进行 讲解 。 
GD 读 入 学 习 用 的 图 像 数 据 

为 了 让 神经 网 络 进行 学 习 ， 学 习 数 据 当 然 必 不 可 少 。 如 下 图 所 示 ， 
我 们 将 学 习 数 据 读 入 工作 表 。 

由 于 图 像 是 单 色 二 值 的 ， 所 以 我 们 将 图 像 灰 色 部 分 转换 为 1， 白色 部 
分 转换 为 0。 将 正解 代入 到 变量 + 、t, 中 ， 当 输入 图 像 的 手写 数字 为 0 时 
(tb) = (1, 0)， 当 数字 为 1 时 (4, 6)=(0, 1)(3-3 节 )。 
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神经 网 络 的 最 优化 



















































































@) 设置 权重 和 偏 置 的 初始 值 
下 面 我 们 来 设置 权重 和 偏 置 的 初始 值 。 根 据 设置 的 不 同 ， 存 在 求解 


器 计算 不 收敛 的 





情况 ， 这 时 需要 重新 设置 初始 值 。 











LS 














ABC D _ 
0 和 1 的 识别 


Sr 




















aspeaear 








向 如 避 














初始 设置 使 用 的 是 服从 
标准 正 态 分 布 的 正 态 分 
布 随机 数 ( 2-1 节 ) 


















































Bl 





-0.9406 2.93089 

















(3) 从 第 1 张 图 像 开始 计算 各 个 神经 单元 的 加 权 输 入 、 输 出 、 平 方 误差 


对 于 第 1 张 
值 、 平 方 误差 C 








图 像 ， 我 们 来 计算 各 个 神经 单元 的 加 权 输 入 z 的 值 、 输 出 
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(4 对 全 部 数据 复制 (3) 中 建立 的 函数 


将 处 理 第 1 张 图 像 时 建立 的 函数 复制 到 所 有 


数 Ci 的 值 (3-4 节 式 (7) )。 
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021 区 < 天 | =SUINXNY2 (019:020, 09:010) /2 计算 时 利用 3-2 节 

和 F GT 的 式 (1)、 式 (2) 以 及 

0 和 1 的 识别 3-4 节 的 式 (6)。 

2 

隐藏 层 的 权重 和 偏 置 

4 U w B 

5 3214 4567 -0541| -1076 = 
6 1 | 2359 -1071 -2.808 算出 隐藏 层 神经 单 
7 -1382 3.991 -2218 二 的 的) A 

8 5730 5.310 -2.286 元 的 箱 入 和 输出 
EE 24044 -3275 1.017| 0.687 {321)) 
|10 | | 隐 -1.716 5.457 -1.821 

11 | | 藏 2 | 5361 0303 0.940 

12| 局 -0289 3.505 1.463 2 
四 1712 3.601 -0774| -189 有 
| | ,| aa as6 240| | 全 | |: 算出 输出 层 神经 音 
15 1496 -0.193 3.128 a |2 和 A 
16 0423 -3.249 2.292 3 元 的 加 权 输 入 和 输 
17| | 全 1| 3575 4446 5666| -5578| |，| ,|i 出 (3=2 节 式 (2)】 
18 | |E| 2 | -09406 293089 3.4101| -2.2691 本 ll 

本 = 一 | 刁 | 二 上 F 方 误差 C 

21 c (3=4 节 式 (6) ) 


求 出 代价 函 









































算出 代价 





G21 全 | =SUN(L21:JG21) 
EBD ET GE la 
0 和 1 的 识别 






函数 (3-4 











隐藏 层 的 权重 和 偏 置 
w 





ay 








3.214 
-2.359 
-1.382 

5.730 


-4.562 
-1.071 
3.991 
5.310 





-4.044 
-1.716 

5.361 
-0.289 


-3.275 
5.457 
0.303 

3.505 


EE 
已 











1.017 | 0.68 








































-0.9406 2.93089 








ba 






























































(9 利用 求解 器 执行 最 优化 


利用 Excel 的 标准 插件 求解 器 算出 代价 函数 C1 的 最 小 值 。 如 下 设置 
单元 格 ， 然 后 运 


行 求解 器 。 
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求解 器 的 设置 ( Excel 
| 求解 器 在 “数据 ” 选 


设置 目标 : QI) 项 中 
























o 





























设置 代价 函 
数 的 单元 格 

































































回 使 无 约束 变 旱 为 非 负数 区 ) 
选择 求解 方法 : 下 ) 






































非 线性 GRG 
































G21 I- 天 | =SULCL21:JG21) 求解 器 算出 
权重 和 
alalslcl 5D E | r | Ge |r| 7 Ixllnl 0 Pa 


































0 和 1 的 识别 





价 函 数 CT 
的 值 为 0。 





























0.339 0.981 

到 和 

-0.669 -10.110 
7.166 -4.143 13.077 
10.521 -0.361 4.721 
-7.235 1.981 


1|-14252 -3.699 9.334 
2.77813 7.15097 -17.322| -0.3271 























































D-II- -~ 














Ni | 
SISsEsEEEEEE El 




















代价 函数 的 计算 结果 





求解 器 的 “可 变 单元 格 ” 计 算出 的 值 就 是 最 优化 之 后 的 神经 网 络 的 
权重 和 偏 置 。 此 外 ， 由 于 代价 函数 Cr 的 值 为 0， 所 以 这 个 神经 网 络 完全 
拟 合 了 学 习 数据 。 
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我 们 来 看 看 步 又 @ 中 得 到 的 权重 和 偏 置 确 定 的 神经 网 络 是 否 正确 ， 
输入 手写 数字 0 和 1， 看 看 是 否 能 得 到 我 们 想 要 的 解 。 

下 图 是 输入 右边 的 像素 图 像 时 所 得 的 结果 。 这 个 神经 网 络 
判定 手写 数字 为 0， 与 我 们 的 直观 感觉 一 致 。 







































































































































































021 ES 两 | =IF (019>=020, 0 1) 测试 用 的 工作 表 。 
alslplc| D | FE | 了 6e lalr| TEN 5 

1 0 和 1 的 识别 

2 

3 茂 层 的 权重 和 偏 置 _ 

4 w b 

5 2.064 3362 -0.629| -0.987 

6 -6.624 -0.328 -6.008 

于 2.576 ”12.225 -1.782 

8 -8.619 13.895 -1.377 

9 2093 0.148 1.095| 0.841 如 果 输 出 层 的 神 
10 | | 隐 -1265 10411 -1.366 SA A 
jl1 | 洱 ?| 9774 0339 0981 5. 经 单元 1 的 输出 
12| 层 -0286 5.199 1272 值 比 神经 单元 2 
13 -0.669 -10.110 0.683| -3.588 | | 2 人 中 
14 3 | 7166 -4143 13.077 的 输出 值 大 ， 则 
15 10521 -0361 4721 . 输入 的 图 像 被 判 
16 0795 -7235 1.981 i 是 为 数字 0 

17 | [| 1 |-14252 -3.699 9.334| 6.644 

18 | |S| 2 | 2.77813 7.15097 -17.322| -0.3271 

19 
20 | 数字 的 判定 

21 数字 的 判 只 




















ess Excel 求 解 器 的 局 限 性 
Excel 求解 器 对 于 少量 的 计算 是 非常 方便 的 ， 然 而 对 于 神经 网 络 的 计算 
则 远 远 不 够 ， 因 为 参数 的 个 数 被 限制 为 200 多 个 。 但 在 神经 网 络 的 世界 中 ， 
权重 和 偏 置 等 的 个 数 成 千 上 万 ，Excel| 无 法 处 理 这 么 多 参数 。 























到 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 尊重 版 权 
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神经 网 络 和 误差 反 向 传 
播 法 





沿 着 最 陡 的 坡度 下 山 ， 就 能 以 最 少 的 步 数 到 达 山 脚 。 梯 度 
下 降 法 就 是 将 这 个 原理 应 用 在 数学 上 的 数值 分 析 方 法 。 为 了 求 





























出 梯度 的 方向 ， 需 要 进行 求 导 ， 但 在 神经 网 络 的 1 


世界 中 ， 导 数 




















计算 的 计算 量 十 分 巨大 。 误 差 反 向 传播 法 就 解决 了 这 个 难题 。 
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梯度 下 降 法 的 回顾 











神经 网 络 的 参数 ( 权重 和 偏 置 ) 是 通过 将 代价 函数 最 小 化 来 确定 的 
(3-4 方 )。 最 小 化 的 方法 中 最 有 名 的 就 是 我 们 在 第 2 章 考 察 过 的 梯度 下 降 
法 。 本 节 我 们 将 简单 地 复习 一 下 梯度 下 降 法 ， 并 据 此 来 确认 新 方法 的 必 
要 性 。 























问题 的 回顾 





求 函数 最 小 值 的 通用 方法 中 ， 最 有 名 的 就 是 利用 最 小 值 条 件 。 例 如 ， 
要 求 光滑 函数 z=Jf(x,y) 的 最 小 值 ， 考 虑 以 下 方程 就 可 以 了 (2-7 市 )。 








-0, 六 = (1) 
我 们 在 回归 分 析 中 使 用 了 这 个 方法 (2-12 节 )。 

在 神经 网 络 中 ， 代 价 函 数 相 当 于 式 (1) 的 函数 几 权重 和 偏 置 相当 于 
变量 x、y。 如 前 所 述 ， 权 重 和 偏 置 的 总 数 十 分 庞大 ， 而 且 代 价 函 数 中 包 
含 了 激活 函数 ， 所 以 求解 像 式 (1) 这 样 的 方程 是 十 分 困难 的 。 通 过 前 面 考 
察 过 的 以 下 回 辐 ， 就 可 以 知道 其 难度 。 

















gd 


' 已 知 一 个 用 于 识别 通过 4 x 3 像素 的 图 像 读 取 的 手写 数字 0、1 的 ， 
' 神经 网 络 ， 其 代价 函数 为 Cr。 尝 试 进行 求 代 价 函数 最 小 值 的 计算 。 学 ， 
， 习 用 的 图 像 数 据 为 64 张 图 像 ， 像 素 为 单 色 二 值 。 


和 











前 面 已 经 考察 过 ， 我 们 可 以 建立 如 下 图 所 示 的 神经 网 络 作为 这 个 
回 同 的 解 。 
注 : 神经 单元 名 使 用 的 是 输出 变量 名 。 



































口 
司 
-一 
OO 
Cn 
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作为 加 本 | 的 
解答 示例 的 
神经 网 络 的 
简略 图 。 


























如 下 列 出 描述 这 个 神经 网 络 的 关系 式 〈3-2 节 )， 其 中 激活 函数 为 a(z)。 





< 隐藏 层 > 

下 = Wi 让 Who 下 WI iN 二 Dp 
52 = WA | WX En Ww 12X12 +b 
23 = Wi + WX Se WS X12 | by 











qa? =a(z?) (i=1, 2, 3) O) 





AT 
< 输出 层 > 
3 3 - 汉 于 2 ， 73 
也 =TWiigl + wd 十 Wi303 +h 
3 本 9 二 
2 = WIA 十 W2202 + wad 十 万 


中 =a(z) (i=1, 2) 


此 外 ， 神 经 网 络 计算 出 的 预测 值 与 学 习 数据 的 正解 的 平方 误差 C 如 
下 所 示 (3-4 节 )。 


c -5 qa) + a))} G) 


将 图 像 实 例 代入 到 式 (2)、 式 (3) 中 ， 得 到 代价 函数 Cr (3-4 市 )。 这 
个 函数 是 本 章 的 主角 。 
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Ci=C+Cs t+ Co (4) 





CG 是 将 第 大 张 图 像 数据 代入 到 平方 误差 的 式 (3) 后 得 到 的 值 ， 如 下 所 示 。 








C=5 {aA + 六 (5) 





上 式 中 ， 变 量 附 带 的 [如 表示 从 第 k 张 图 像 实例 得 到 的 值 (k=1, 2, 3，…， 
64) (3-1 节 )。 















































误差 正解 
-1 3 3 TN2 xz[=1 
QG=tGDI-aD) +( 有 一 2D) 1 

2 <|0 [ll]=0 

_ 工 i t[k]=1 

C= 本 [和 a [Kk]) +([ 操 一 [和 ) <I0 LO-0 
i Sed oan dareay 二 站 1[64]=0 
@ 4 预测 值 64™ 7 {al ]-al ]) 4(6[ 二 区 ]) 1[64]=1 


























县 


代价 函数 Cr = C++…+ CT… 十 Ca 
神经 网 络 和 代价 函数 的 关系 。 





代价 函数 的 式 (4) 由 式 (5) 构成 ， 而 式 (5) 由 式 (2)、 式 (3) 构成 。 代 
价 函 数 Cr 是 非常 复杂 的 函数 的 集合 体 。 此 外 ， 从 式 (2) 可 以 知道 ， 要 确 
定 的 参数 (权重 和 偏 置 ) 共有 47 个。 如果 想 要 根据 式 (1) 这 样 的 方程 来 
确定 参数 的 话 ， 就 需要 47 个 方程 ， 如 下 所 示 。 

















OC =0, CC =0, ……， CC =0,.…: 
Ow Ow Oop” 
(6) 
OC =0, CCr =0, …， CC =0,.…: 
Ow Ow Opi 





求解 这 些 方程 是 极其 困难 的 ， 于 是 梯度 下 降 法 应 运 而 生 。 
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在 神经 网 络 中 应 用 梯度 下 降 法 


把 函数 图 像 看 作 和 斜坡 ， 沿 着 坡度 最 陡 的 方向 一 步 一 步 地 下 降 ， 将 这 
个 想法 在 数学 上 表示 出 来 ， 就 是 梯度 下 降 法 ， 如 下 所 示 (2-10  )。 





对 于 光滑 函数 f(x, xo, …, x,)， 使 各 变量 分 别 作 微 小 的 变化 ， 如 下 
所 示 。 


X1 + AXxi, X2 + AX2, "**, Xn + AXn 


当 以 下 关系 式 成 立时 ， 函 数 f 减 小 得 最 快 。7 为 正 的 微小 常数 。 


of 0 寻 of 
Ax,, Ax,, :…, Ax > es 7 
(i ") "| 站 Ox | 可 














此 外 ， Es 生 ，…， 六 为 本数 /的 神 度 。 
XI CX 


我 们 试 着 将 梯度 下 降 法 的 基本 式 (7) 应 用 到 回国 中 。 将 Cr 作为 式 (4) 
给 出 的 代价 函数 ， 式 (7) 表示 为 如 下 形式 。 


Xn 











WP 、 媒 等 表示 式 (2) 中 的 权重 和 偏 置 。 此 外 ， 正 的 常数 称 为 学 习 
率 ， 这 些 我 们 已 经 考察 过 了 。 

如 果 利用 关系 式 (9)， 用 计算 机 实 实在 在 地 进行 计算 的 话 ， 寻 找 使 Cr 
取得 最 小 值 的 权重 和 偏 冒 这 个 目的 看 起 来 是 可 以 达到 的 。 用 变量 的 当前 
位 置 (Wi Wil， 所 ，…) 加 上 式 (8) 左边 求 得 的 位 移 向 量 ， 
得 到 新 的 位 置 : 
































Wi + AW, 7 Wi + Awi, 7, D7? + AD?, …, bi +ADi, …) (9) 
11 11 11 于 1 1 Wn 1 
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将 它 再 一 次 代入 式 (8) 进行 计算 ， 如 此 反复 操作 就 可 以 了 (2-10 节 )。 与 
求解 方程 组 (6) 相 比 ， 这 是 很 大 的 进步 。 


实际 的 计算 十 分 困难 


然而 ， 事 情 并 没有 这 么 简单 。 由 于 式 (2) 中 有 4 个 参数 (权重 和 偏 
置 )， 所 以 式 (8) 表示 的 梯度 也 有 47 个 分 量 。 而 且 ， 计 算 这 个 梯度 的 分 量 
是 十 分 麻烦 的 。 我 们 来 试 着 实际 地 计算 式 (8) 右边 的 梯度 的 其 中 一 个 分 量 。 



































因 回 计算 2 。 


Bi 
从 第 天 张 图 像 得 到 的 输出 与 正解 的 平方 误差 Ci 由 式 (5) 给 出 (k= 1， 
2,…, 64 )。 利 用 偏 导数 的 链 式 法 则 (2-8 节 )， 进 行 如 下 变形 。 











OC, OC, Oai[k] Ozi[k] Oai[k] Oz7[K] 
Ow Oai[k] 02 [k] Gar[k] O27 [kK] Ow 












































es Se (10) 
OC, Oai[k] 0z3[k] Oa?[k] 6z2[ 妇 ] 
Oaz[k] 6z2[k] Oa7 [kK] O27 [Kk] Ow 
层 3 ) 
学 习 数 据 的 
正解 
i 
i 









































在 式 (10) 中 利用 偏 导数 的 链 式 法 则 时 变量 的 关系 。 神 经 单元 用 3-1 节 的 符号 表示 。 


























将 其 代入 式 (4)， 得 到 
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6aCr_ 6C， 6Cc， 6Cu 
OW DB 6 
_) 6c sum 62[1] 607 [11] ez 中 
Oai [1] 6z1[1] O07 [1] 02 [1] Ow 
OC, 6ai[1] 623[1] Oa?[1] 6z? 凹 | ， 
Oa; 加 | 6z?[]] Oa | O27 由 Ow 
国 OCs, Oai[64] 6z;[64] 0a?[64] 6z?[64] 
Oai[64] 6z; [64] Oa [64] 0z7[64] Ow 
”OCs 6a3[64] 6z;[64] Gar[64] 6027[64] 
Oa3[64] 6z3[64] 6a2[64] 8z2[64] Ow 























(11) 





将 式 (2) 代入 这 些 导 数 项 中 进行 计算 , (虽然 非常 麻烦 ) 就 可 以 用 权 





重 和 偏 置 的 式 子 表示 偏 导数 的 结果 。 以 上 就 是 阿古 的 解答 


品 o 











从 加 加 我 们 可 以 知道 ， 用 具体 的 式 子 来 求 梯度 分 量 是 一 件 非常 困难 
的 工作 。 虽 然 单个 的 计算 比较 简单 ， 但 是 会 被 导数 的 复杂 与 繁多 所 压倒 ， 








反 向 传播 法 。 关 于 这 个 算法 ， 我 们 将 在 下 一 节 详 细 考 察 。 





进入 所 谓 “ 导 数 地 狱 ” 的 世界 。 为 了 解决 这 个 问题 ， 人 们 研究 出 了 误差 


梯度 下 降 法 的 式 (8) | 一” 


一 一 | ”误差 反 向 传播 法 ”| 一 一 > 达到 目的 ! 


梯度 计算 : 先 求 导 再 求 和 
通过 式 (10)、 式 (11) 的 计算 ， 我 们 了 解 到 以 下 事实 。 





梯度 分 量 是 一 个 一 个 学 习 实 例 的 简单 的 和 。 























也 就 是 说， 代价 函数 Cr 的 偏 导数 是 从 各 个 学 习 实例 得 到 的 偏 导 数 的 和 。 





这 是 一 个 非常 好 的 性 质 。 一 般 地 ， 为 了 求 式 (8) 中 的 梯度 分 量 ， 


可 以 首先 求 


式 (3) 的 平方 误差 C 的 偏 导数 ， 然 后 代入 图 像 实例 ， 最 后 对 全 体 学 习 数 据 求 
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和 即 可 。 逮 辑 上 需要 64 次 偏 导数 计算 ， 这 里 仅 用 1 次 偏 导数 计算 就 完成 了 。 





























证 和 | 64 次 偏 导 数 计算 

将 数据 代入 OC 6C, 6C% 

式 (3) 的 C 中 OO 0 

轴 f 和 2 

re ,oC a OC _6C 6C,, 6C% 
式 (3) 得 到 = RN = 下 证 仙人 


2 
Owl 











次 偏 导数 




















推荐 使 用 计算 方法 2， 利用 “图 像 实例 的 简单 的 和 ”这 个 性 质 ， 极 大 地 减少 了 偏 导 
































数 计算 的 次 数 。 











鉴于 以 上 原因 ， 此 后 的 导数 计算 将 不 再 标注 图 像 编 号 (k= 1, 2，…， 
64 )。 此 外 ， 只 有 在 实际 地 计算 梯度 分 量 的 值 时 ， 我 们 才 会 根据 需要 标注 


St EE 误差 反 向 传播 法 的 历史 











误差 反 向 传播 法 是 1986 年 美国 斯 坦 福 大 学 的 鲁 梅 尔 哈 特 ( Rumelhart ) 
等 人 命名 的 神经 网 络 学 习 方法 。 该 方法 虽然 看 起 来 很 难 ， 但 内 容 其 实 十 分 简 
































单 ， 大 家 在 读 到 之 后 的 章节 时 就 会 发 现 这 一 点 。 
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神经 单元 误差 6 




















梯度 下 降 法 对 于 寻找 多 变量 函数 的 最 小 值 的 问题 是 有 效 的 。 然 而 在 
神经 网 络 的 世界 中 ， 变 量 、 参 数 和 函数 错综复杂 ， 无 法 直接 使 用 梯度 下 
降 法 ， 于 是 就 出 现 了 误差 反 向 传播 法 。 作 为 应 用 这 个 方法 的 准备 工作 ， 
本 节 将 引入 一 个 名 为 神经 单元 误差 的 变量 。 








引入 符号 5 
误差 反 向 传播 法 的 特点 是 将 繁杂 的 导数 计算 替换 为 数列 的 递 推 关系 
式 ， 而 提供 这 些 递 推 关系 式 的 就 是 名 为 神经 单元 误差 ( error ) 的 变量 5 。 
利用 平方 误差 C(4-1 节 )， 其 定义 如 下 所 示 。 


























注 : 希腊 字母 6 读 作 delta， 相 当 于 拉丁 字母 d。 此 外 ， 虽 然 神经 单元 误差 与 4-1 节 的 














式 (3) 的 平方 误差 同 为 误差 ， 但 它们 的 含义 却 完全 不 一 样 。 


下 面 我 们 来 具体 地 考察 神经 单元 误差 。 
对 于 4-1 节 的 开头 的 例题 中 的 神经 网 络 ， 考 察 神 经 单元 误差 5/ 
与 平方 误差 C 关 于 权重 、 偏 置 的 偏 导数 的 关系 。 


和 


注 : 本 节 中 使 用 的 变量 和 式 子 等 的 含义 与 4-1 节 相 同 。 


这 个 加 各 的 平方 误差 C 如 下 所 示 (4-1 节 式 (3) )。 

































































c 5 四 + 全 0)) O) 


3C 53_0C 


» be 
Oz O23 


加 加 根据 定义 ， 有 = 
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我 们 用 下 图 来 说 明 回 旭 中 变量 的 关系 。 






































神经 单元 等 遵循 3-1 节 的 表示 方法 。 





用 5 表示 平方 误差 关于 权重 、 偏 置 的 偏 导数 


平方 误差 式 (2) 关于 权重 、 偏 置 的 偏 导 数 与 式 (1) 定义 的 56; 关系 密 
切 。 我 们 通过 下 面 的 回回 、 加 回来 弄 清 楚 它 们 的 关系 。 








回国 中， 我 人 用友 来 表示 。 


11 


根据 偏 导 数 的 链 式 法 则 ， 可 以 得 到 下 式 (上 图 )。 





OC _ oC O27 
Ow Oz Owi 











G3) 


这 里 我 们 利用 4-1 节 的 式 (2) 中 的 以 下 变量 关系 式 。 








21 


=WX + woxy + + WX 十 有 
= WX T WioX2 Wi12X12 TO 


根据 这 个 关系 式 ， 可 得 
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Oz? 


om . 





根据 8? 的 定义 式 (1) 以 及 上 述 的 式 (3)、 式 (4)， 可 得 


= (5) 





这 就 是 加 目的 解答 。 变 量 的 关系 如 下 图 所 示 。 


ac _ OCr O62? 


2 2 
Ow Oz OW 


输入 层 ( 层 1 ) @ BO 
i 

(a 

多 


的 变量 关系 图 。 神 经 单元 等 遵循 3-1 节 的 表示 方法 。 













































































此 外 ， 在 输入 层 ( 层 1) 中 ,由 于 它 的 输入 和 输出 相同 ， 所 以 我 们 利 
变量 名 a 的 约定 (3-1 节 )， 将 输入 和 输出 表示 如 下 。 
































和 过 克 
将 上 式 与 式 (4) 结合 起 来 ， 式 (5) 可 以 如 下 表示 。 
es = 57a (0) 


回国 中 ,我 们 用 名 来 表示 了 。 


根据 偏 导数 链 式 法 则 ， 可 以 得 到 下 式 (四 出 的 图 )。 


6C _6C Oz 


Ow 2 Ow WW 











这 里 我 们 利用 4-1 方 的 式 (2) 中 的 以 下 变量 关系 式 。 





了 3 2 3 2 Ee 
z= Wa + Wa 十 Wi303 +h 
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根据 这 个 关系 式 ， 可 得 








Oz 一 8 

Ow = ( ) 
根据 6 的 定义 式 (1) 以 及 上 述 的 式 (7)、 式 (8)， 可 得 

oC > 

Ow 0 9) 


这 就 是 回回 的 解答 。 变 量 的 关系 如 下 图 所 示 。 
































oC _ 6C 经 
Ow 6z Ow 
全 的 变量 关系 图 。 
Om / 神经 单元 等 遵循 3-1 
Ow 节 的 表示 方法 。 


通过 同样 的 计算 ,平方 误差 式 (2) 关于 及、 的 偏 导 数 可 以 如 下 表示 。 


3C 306% $2 0_0C08 
Op? Oz20b !' Ob Oz Ob 








(10) 























这 样 ， 9/ 与 平方 误差 C 关于 权重 和 偏 置 的 偏 导 数 就 建立 起 了 关系 。 


J 
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RO 














, [BE 到 利用 链 式 法 则 ， 请 用 5 来 表示 AS 。 

| Wi | 

1 小 1 

,多 2 = 2 2 a) 6 ' 

| Owi, O02: 0 | 
= Se 。 _. OC oC 
问题 四 利用 链 式 法 则 ， 请 用 6 来 表示 -< 、2。 
OW Ob; 








舰 6C _6C 0z， 32 OC C6 3 
3 
OW3 06z OW ob; 60z Ob; 


注 : 推荐 使 用 式 (11) 进行 固 昌 下、 的 实际 计算 。 

















5 与 5 的 关系 十 分 重要 


本 节 我 们 唐 突 地 引入 了 5 等 符号 进行 计算 ， 结 果 得 到 式 (11)。 从 这 
个 式 (11)， 我 们 了 解 到 以 下 重要 事实 : 如 果 神 经 单元 误差 5 能 求 出 来 ， 
那么 梯度 下 降 法 的 计算 所 必需 的 平方 误差 式 (2) 的 偏 导数 也 能 求 出 来 。 
此 ， 下 面 的 目标 就 确定 了 ， 那 就 是 计算 出 神经 单元 误差 5 。 


并 箔 山 sl 根据 式 (11), 计算 出 平方 
计算 出 9 | 天 | 。 误差 C 的 偏 导数 ”| > 


我 们 将 在 下 一 节 考 察 6 的 计算 方法 ， 即 误差 反 向 传播 法 。 该 方法 根 
据 5 与 5/ 的 关系 来 求 5 。 




































































00905690 的 含义 与 神经 单元 误差 
我 们 来 考虑 一 下 将 6;=6C / 6z! 称 为 神经 单元 误差 的 含义 。 从 这 个 定义 
可 知 ， 6) 表示 神经 单元 的 加 权 输 入 zz 给 平方 误差 带 成 的 变化 率 。 如 果 神 经 网 
络 符 合 数据 ， 根 据 最 小 值 条 件 ， 变 化 率 应 该 为 0。 换 言 之 ， 如 果 神 经 网 络 符 
合 数 据 ， 神 经 单元 误差 6/ 也 为 0。 那 就 是 说 ， 可 以 认为 8f 表示 与 符合 数据 
的 理想 状态 的 偏差 。 这 个 偏差 表示 为 “误差 ”。 
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Et 漳 ” 神 经 网 络 和 误差 反 向 传播 法 








梯度 下 降 法 为 寻找 多 变量 函数 的 最 小 值 提 供 了 一 种 实际 可 行 的 方法 ， 
然而 如 4-1 节 考 察 的 那样 ， 在 神经 网 络 中 不 能 直接 使 用 梯度 下 降 法 。 于 
是 就 出 现 了 误差 反 向 传播 法 ( BP 法 )， 有 具体 来 说 ， 就 是 建立 4-2 节 引 入 
的 神经 单元 误差 5 的 递 推 关系 式 ， 通 过 这 些 递 推 关 系 式 来 回避 复杂 的 导 
数 计算 。 








通过 递 推 关系 式 越过 导数 计算 
误差 反 向 传播 法 以 梯度 下 降 法 为 基础 。 我 们 用 图 来 说 明 它 的 位 置 。 














梯度 下 降 法 最 小 值 条 件 的 方程 
ac， 0 Cr 
Ox Oy 2z 





代价 函数 C' 的 
最 小 化 问题 


误差 反 向 传播 法 的 位 置 ， 它 是 梯度 下 降 法 的 一 个 分 支 。 























误差 反 向 传播 法 的 特点 是 将 繁杂 的 导数 计算 替换 为 数列 的 递 推 关 系 
式 。 关 于 递 推 关系 式 的 内 容 我 们 在 第 2 章 已 经 考察 过 了 ， 但 是 如 果 对 数 
列 不 熟悉 ， 可 能 依然 会 觉得 不 顺手 。 不 过 请 别 担心 ， 具 体 地 思考 一 下 就 
会 发 现 其 实 并 不 难 。 我 们 利用 前 面 考察 过 的 以 下 加 有 来 分 析 其 结构 。 
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人 


， 神经 网 络 ， 尝 试 对 其 代价 函数 应 用 误差 反 向 传播 法 。 其 中 ， 学 习 用 的 
,数据 为 64 张 图 像 ， 像 素 为 单 色 二 值 。 


TP 


注 : 本 节 使 用 的 符号 和 式 子 的 含义 与 4-1 节 、4-2 节 相 同 。 


我 们 在 4-2 节 考 察 过 ， 在 误差 反 向 传播 法 中 ， 首 先 要 定义 如 下 变量 
6; ， 该 变量 称 为 第 1 层 第 j 个 神经 单元 的 误差 。 











d= (1) 


如 果 我 们 能 得 到 神经 单元 误差 5 ， 根 据 下 式 就 可 以 得 到 作为 梯度 下 
降 法 基础 的 平方 误差 的 偏 导数 (4-2 节 式 (11) )。 




















注 : 如 4-2 节 的 式 (6) 所 示 ， 当 /=2 时 ，& 约定 如 下 :， w =x (2 为 输入 层 ( 即 层 1 ) 
的 第 i 个 神经 单元 的 输入 输出 变量 )。 


如 果 我 们 能 得 到 神经 单元 误差 5 ， 根 据 式 (2) 就 可 以 得 到 梯度 的 分 
量 。 那 么 ， 如 何 求 5 呢 ? 这 里 我 们 利用 数学 中 有 名 的 数列 递 推 关 系 式 
(2-2 节 ) 的 思想 。 

数列 为 数 的 序列 ， 其 第 一 项 称 为 首 项 ， 最 后 一 项 称 为 末 项 。 有 趣 的 
是 , 将 式 (1) 定义 的 5 看 作 数 列 时 ， 可 以 简单 地 求 出 它 的 “ 末 项 ”。 








图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 





版 权 
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我 们 现在 考虑 的 回国 中 ， 神 经 网 络 的 层 数 为 3。 因 此 ， 我 们 试 着 计 

算 相 当 于 数列 {6'} 末 项 的 误差 6 (7 = 1 2 )。 这 就 是 输出 层 的 神经 单元 
误差 。 以 a(z) 为 激活 函数 ， 根 据 链 式 法 则 ， 有 

;6C 6C Oa 6C 


j 3 3 3 kK 
’ Oz Oa Oz Oa; 





a'(z)) (3) 





这 里 我 们 利用 了 4-1 节 的 式 (2) 中 的 关系 式 。 

像 这 样 ， 如 果 给 出 平方 误差 C 和 激活 函数 ， 就 可 以 具体 地 求 出 相当 
于 “ 末 项 ”的 输出 层 神 经 单元 误差 5) 。 

以 工作 为 输出 层 的 层 编号 ， 可 以 将 式 (3) 一 般 化 ， 如 下 所 示 。 





5! = 7a)) (9) 


J Oa’ 




















输出 层 第 j 个 神经 单元 通过 
的 路 径 与 平方 误差 C 相 
接 ， 就 得 到 式 (4) 的 左边 ， 
过 下 面 的 经 过 wy 的 路 径 相 
卖 ， 就 得 到 式 (4) 的 右边 。 















































棚 疗 崩 片 






































下 面 让 我 们 试 着 实际 地 计算 前 而 回国 中 的 神经 单元 误差 5 。 


在 加 中 ， 我 们 来 计算 5; 。 
根据 4-1 节 的 式 (3)， 平 方 误差 C 为 


C++ 所 一作 (5) (4-1 节 式 (3)) 
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因此 ， 有 
6 三 a = 
Oa: = 一 六 (6) 
将 式 (5)、 式 (6) 代入 式 (3)， 可 得 
0 =(@ -ti)a'(2i) (7) 


这 就 是 加 轩 的 解答 。 


瑟 忆 串 在 [可 中 ， 尝 试 计算 5; 。 激 活 函 数 为 Sigmoid 函数 o(z)。 





' 鲫 与 推导 式 (7) 同样 ， 有 
62 =(q} —t)a'(2) (8) ， 
， 此 外 ,根据 题 意 ， 激 活 函 数 为 Sigmoid 函数 o(z) (2-6 节 )， 所 以 ! 
' 有 ' 





a'(z2)=0"(z;)=0(2){1 -0(z;)} (9) 
将 式 (9) 代入 式 (8)， 可 得 


下 =(@-b)o(2)=(@ -6)o(z){ -0(z2)} 


和 





神经 单元 误差 5 具有 非常 好 的 性 质 。 它 通过 简单 的 关系 式 与 下 一 层 
的 神经 单元 误差 65” 联系 起 来 。 比 如 ， 我 们 试 着 考察 一 下 [的 9 。 
首先 ,根据 偏 导数 链 式 法 则 (2-8 节 )， 有 


，» 6C OC 6 Oa OC 0; Oa 
1 B27 Gz a7 Oz’ | O23 a? ty 
1 1 CI O21 22 OQ C2 





(10) 
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中 相关 变量 的 
在 式 (10) 中 利 
法 则 时 ， 通 过 两 
径 到 达 平 方 误差 
妈 中 带 有 圆圈 的 地 
示 相 关 的 变量 。 

































































我 们 来 看 看 式 (10) 右边 的 各 项 。 根 据 6 、6; 的 定义 式 (1)， 有 
= 人, i=0 (11) 


此 外 ,根据 与 a (i=1,2,3 ) 的 关系 (4-1 节 式 (2) )， 有 





Oz? Oz; 
i ? 8 = 1 (12) 
再 利用 激活 函数 a(z)， 有 
Oa ， 
Be (13) 


将 式 (LD 一 式 (13) 代入 式 (10)， 可 得 
Bl 三 wiia'(z7 ) 十 waia'(z7 ) 


这 样 就 得 到 了 以 下 关系 。 


0 到 (OW 十 62wii)a'(z1) (14) 
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代价 函数 
(Ge 


















































对 于 5 、6; ， 也 可 以 得 到 同样 的 关系 式 。 我 们 加 以 总 结 ， 如 下 所 示 。 


67 =(6° Ww + ow)a(z) (i=1, 2,3) 





这 样 我 们 就 得 到 了 第 2 层 的 5 与 第 3 层 的 6; 的 关系 。 这 个 关系 式 可 
以 如 下 推广 为 层 1 与 下 一 层 1+1 的 一 般 关 系 式 。 














1 +1, +l 1+1， /+1 V+1， +1 17 1 
0; =tO Wi TO wi t+O, wi }a (2;) 


m 





注 : m 为 层 /+ 1 的 神经 单元 的 个 数 。! 为 2 以 上 的 整数 。 











中 间 层 的 51: 不 求 导 也 可 以 得 到 什 








我 们 来 观察 式 (15)。 第 3 层 的 、6 的 值 可 以 通过 式 (7)、 式 (8) 得 
到 。 因 此 ， 利 用 式 (15)， 不 用 进行 麻烦 的 导数 计算 ,也 可 以 求 出 第 2 层 的 
5 的 值 ， 这 就 是 误差 反 向 传播 法 。 只 要 求 出 输出 层 的 神经 单元 误差 ,其 
他 的 神经 单元 误差 就 不 需要 进行 偏 导 数 计算 1! 
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误差 反 向 传播 法 的 结构 。 如 果 求 
出 第 3 层 的 3， 那么 第 2 层 的 6 
也 可 以 简单 地 求 出 。 























式 (16) 一 般 是 按照 层 编号 从 高 到 低 的 方向 来 确定 值 的 。 这 与 第 2 章 
考察 过 的 数列 的 递 推 关系 式 的 想法 相反 ， 这 就 是 反 向 传播 中 “ 反 向 ”的 
由 来 。 





























部 
ND 
省 
CD 
汀 
La 


式 (16) 的 含义 。 可 以 说 它 表示 
“ 反 向 ” 递 推 式 的 关系 。 





ee 


在 [可 辐 中 ， 尝 试用 6 、65; 表示 62 。 激 活 函 数 为 Sigmoid 函数 o(z)。 








解 根据 式 (15)， 有 
O67 = (6 WwW, + OW’,)a'(z7) (17) 
此 外 ， 根 据 题 意 ， 激 活 函 数 为 Sigmoid 函数 o(z) (2-6 节 )， 所 以 
有 





a'(z2)=0"(2)=0(2){ -0(z2)} 
将 它 代 入 式 (17)， 可 得 


0 = 人 wi 下 Ow,)o(z7){ o(z7)} 


和 


如 上 所 示 ， 在 加 可 悦 的 解答 过 程 中 ， 导 数 计算 一 个 也 没有 1! 
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用 Excel 体 验 神 经 网 络 的 误差 
反 向 传播 法 





利用 4-3 节 考 察 的 误差 反 向 传播 法 ， 我 们 试 着 用 Excel 实际 计算 代价 
函数 的 最 小 值 。 如 前 所 述 ，Excel 非常 适合 用 来 直观 地 观察 计算 的 结构 。 
注 : 我 们 用 平方 误差 的 总 和 作为 代价 函数 ， 用 Sigmoid 函数 作为 激活 函数 。 不 过 ， 如 果 各 
层 的 激活 函数 相同 ， 则 这 里 考察 的 逻辑 也 可 以 直接 应 用 到 一 般 的 神经 网 络 的 计算 中 。 


首先 ， 我 们 总 结 一 下 前 面 学 习 过 的 误差 反 向 传播 法 的 算法 。 






























































GD 准备 好 学 习 数据 。 
@ 进行 权重 和 偏 置 的 初始 设置 。 
输入 各 个 神经 单元 的 权重 和 偏 置 的 初始 值 。 初 始 值 通常 使 用 随机 
数 。 此 外 ,设置 适当 的 小 的 正 数 作为 学 习 率 1。 
@ 计算 出 神经 单元 的 输出 值 以 及 平方 误差 C。 
计算 出 加 权 输 入 z、 激 活 函 数 的 值 a (4-1 节 式 (2) )。 此 外 ， 计 算出 
平方 误差 C(4-1 节 式 (3) )。 
@ 根据 误差 反 向 传播 法 ， 计 算出 各 层 的 神经 单元 误差 5。 
利用 4-3 节 的 式 (3) 计算 出 输出 层 的 神经 单元 误差 5。 接 着 ， 利 用 
4-3 节 的 式 (16) 计算 出 隐藏 层 的 神经 单元 误差 5。 
根据 神经 单元 误差 计算 平方 误差 C 的 偏 导数 。 
利用 @@ 中 计算 出 的 神经 单元 误差 6 以 及 4-2 节 的 式 (11)， 计 算 平方 
误差 C 关 于 权重 和 偏 置 的 偏 导 数 。 
@ 计算 出 代价 函数 Cr 和 它 的 梯度 VC 。 
将 国 一 回 的 结果 对 全 部 数据 相 加 ， 求 出 代价 函数 Ct 和 它 的 梯度 VC 。 
@ 根据 @ 中 计算 出 的 梯度 更 新 权重 和 偏 置 的 值 。 
利用 梯度 下 降 法 更 新 权重 和 偏 置 (4-1 节 式 (9) )。 
反复 进行 四 一 @ 的 操作 。 
反复 进行 四 一 @ 的 计算 ， 直到 判定 代价 函数 Ci 的 值 充分 小 为 止 。 
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以 上 就 是 利用 误差 反 向 传播 法 有 























反 向 传播 法 























定神 经 网 络 的 权 导 








人 读 入 图 像 数 据 ”一 > @ 设置 初始 值 一 > @) 计算 出 C 等 

















































































































EE 和 偏 置 的 算法 。 






















































































图 像 64 
本 @@ 返回 到 凶 
图 像 2 了 了 | > 
图 像 门 曲 ， 一 
、 
©O— 
本 用 梯度 下 降 法 更 新 
@ 用 误差 反 向 传播 法 计算 出 6 权重 + 
@ 根据 6 计算 C 的 偏 导 数 一 3> @ 计 算出 代价 函数 Cr 和 
它 的 梯度 VCT 
人 的 处 理 称 为 前 向 传播 ， 由 一 @@ 的 处 理 称 为 反 向 传播 。 误 差 反 向 传播 法 是 将 这 二 者 组 
合 起 来 的 计算 方法 。 
用 Excel 确定 神经 网 络 
我 们 试 着 用 Excel 确认 上 述 算 法 。 本 节 利 用 前 面 考察 过 的 以 下 加 晤 作 


为 具体 例子 。 























忆 二 司 吕 二 测 测 呈 品 世 品 辣 二 症 二 十 囊 十 避 己 忆 忆 忆 志 后 : 司 后 辣 本 二 呈 辣 二 志 十 本 吉明 区 二 十 十 呈 忆 二 忆 二 吉 吉 号 晤 部 画 喜 














对 于 4-1 一 4-3 节 考 察 过 的 神经 网 络 ， 利 用 误差 反 向 传播 法 确定 
它 的 权重 和 偏 置 。 学 习 数 据 的 64 张 图 像 实 例 收录 在 附录 A 





日 














o 


et eho Se ei, nh, sh 2 i ne rr nr er fe, se ey | a! ed et et He et et eh eh i Br er er ee 


我 们 已 经 在 4- 1 一 4-3 节 考 察 过 这 个 神经 网 络 的 变量 的 
月 式 子 或 函数 来 表示 就 可 以 了 。 下 面 ， 





在 Excel 中 ， 只 要 将 其 月 


具体 的 计算 方法 。 
中 读 入 图 像 
要 





























具体 关系 式 。 


























我 们 来 考虑 


角 定 神经 网 络 ， 就 必须 根据 学 习 数 据 确定 权重 和 偏 置 ( 如 前 所 述 ， 
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这 称 为 “学 习 ”)。 为 此 ， 我 们 在 Excel 工作 表 中 读 入 64 张 手写 数字 的 网 
像 和 正解 。 
注 : 学 习 数 据 的 64 张 图 像 实例 收录 在 附录 A 中 。 




















由 于 是 单 色 二 值 图 像 ， 所 
以 像素 信息 用 0 和 1 表示 
































| 
数字 0 和 1 的 识别 

































天 二 痢 
请 参考 3-3 市 


























在 从 单元 格 L3 开始 的 范围 内 按 顺序 分 配 6 x 4 的 块 状 区 域 ， 读 入 64 张 图 像 的 数据 和 正 
解 。 在 各 个 6x4 的 块 状 区 域 中 ， 在 左上 的 4x3 区 域 设 置 图 像 的 值 ， 右 下 的 2x1 区 域 
设置 正解 变量 1、z 的 值 。 

































































Q@@ 进行 权重 和 偏 置 的 初始 设置 
权重 和 偏 置 一 开始 是 未 知 的 ， 需 要 由 我 们 求 出 。 然 而 如 果 没 有 “出 
发 点 ”就 无 法 展开 讨论 。 因 此 我 们 利用 正 态 分 布 随机 数 (2-1 节 ) 来 设置 
作为 “出 发 点 ”的 初始 值 。 此 外 ， 我 们 还 要 设置 学 习 率 为 适当 的 小 的 
正 数 。 
注 : 学 习 率 7 的 设置 大 多 需要 反复 试 错 。 同 样 地 ， 对 于 权重 和 偏 置 的 初始 值 ， 为 了 取得 
好 的 结果 ， 也 可 能 需要 多 次 变更 设置 。 
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2 lI 





数字 0 和 1 的 识别 


























0.837 -0.071 -3. 
-0536 -0023 - 
-1.456 -0.556 10. 













































































权重 和 偏 置 的 初始 值 。 
利用 正 态 分 布 随机 数 

















单元 格 D10 开始 





























竺 从 
范围 内 分 配 权重 ( w ) 
偏 


(2) 的 区 域 ， 














合计 由 47 个 参数 构成 。 








(3) 计算 出 神经 单元 的 输出 值 以 及 平方 误差 C 
对 于 第 1 张 图 像 ， 我 们 根据 权重 和 偏 置 来 求 各 个 神经 单元 的 加 权 输 


入 、 激 活 函数 的 值 和 平方 误差 C。 
























































L17 ~ 所 大 ||=((0$7-L15) “2+(0$8-N15) 2)72 















平方 误差 C 








1 














| BclalP | 加 
| 1 数字 0 和 1 的 识别 
医 5 浊 
E34 
a 
5] 学 习 才 和 
Ea 3 
| 
[sd 
g | fs. ss]| w | 















0.490 0348 0.073 
0.837 -0071 -3.617 
-0.536 -0023 -1.717 
-1.456 -0.556 0.852 
0442 -0537 1.008 











“EE 






0.004 


-0.724| -1 








利用 4-1 节 式 (2) 









1.072 -0.733 0.823 
-0453 -0014 -0027 
-0.427 1.876 -2305 


请 盎 双 压 拓 
























a ae | 
21 

四 喇 吕 
ai 


一 


0327 
| arz}) | 0220 


















人 @ 根据 误差 反 向 传播 法 计算 各 层 的 神经 单元 误差 
首先 计算 输出 层 的 神经 单元 误差 (4-3 节 式 (3) )， 然 后 根据 “ 反 
向 ” 递 推 式 计算 6? (4-3 节 式 (15) )。 
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@) 根据 神经 单元 误差 计算 平方 误差 C 的 偏 导数 


根据 加 中 求 出 的 5， 计 算 平方 误差 C 关 于 权重 和 偏 置 的 偏 导数 (4-2 
市 式 (11) )。 













































































































































































L25 ~ 全 ££| [=L$3:N$6+L211} 

alaABIc| D RR kK a 
| 1 | 数字 0 和 1 的 识 

2 编号 1 

% 1 1 1 

-3 | 输 位 

4 入 | 六 1 0 1 

5 层 | 式 1| 9o 1 

6 1 1 

条 tl 1 
8 正解 t2 0 
9 | [vw. 过 w b 1 | 次 

10 0.490 0348 0073 | -0.185 1 四 3 

11 0.837 -0071 -3.617 z2 |-5.465| 1997 | -1552 

1 隐藏 | 2 oo] 

12 -0536 -0023 -1.717 算 | 层 | aa | 0004| 0880| 0175 

13 -1.456 -0.556 0.852 出 az2) | 0.004 | 0.105 | 0.144 

14 0442 -0537 1008 | 0526|| 变 z3; | -0724| -1.804 
[16 | 2 | 1072 -0733 0823 人 | aa | 0327 | 01H1 

16 | | 层 | | -0453 -0.014 -0027 ae3i) | 0220 | 0.121 

17 -0427 1.876 -2305 可 

-二 

18 0.654 -1389 1246 | -1169| 输出 |acvaa3 0673 | 0.141 由 利用 4-3 节 式 (3) 
19 3 | 0057 -0.183 -0743 出 层 | 5 lols| 0017 
(20 -0461 0331 0.449 5 | 隐藏 | zw53 |‖-0057 | -0.133| 0022 

21 -1296 1.569 -0471 层 | s2 looo| .0014| 0.003 

22 | | 守 | 1| 0388 0803 0029 | -1438 wa 
23 | |a|2|005 079 1553|-1379 @ 利用 4-3 节 式 (15) 
24 | | 梯度 CT/Ow aC Bb OC /Ow 8C/66 
25 0.040 | 0.068 | -0.022| 0082 0.0001 0.000 0000 | 0.000 
26 1 | -001 0103 -0013 1 | 0000 0000 0000 

27 -0014 0.093 | -0022 0.000 0.000 0000 

28 0.000 0080 | -0.011 及 0.000 0000 0000 

29 | || | -0019 0193 -0295| 0.121 方 隐 -0.014 -0014 -0014| -0014 
30 | | 藏 | 2 | -0481 0.589 -0394 关 藏 2 | -0014 0000 -0014 

31 | | 层 | ”| -0534 0645 -0413 的 | 时 -0014 0.000 -0014 

2 -0287 0.187 -0.396 仿 -0014 -0014 -0014 
133. -0491 -0794 0037| -0932| | 已 0.003 0003 0003 | 0003 
34 3 | 0016 -0959 -0086 数 3 | 0003 0000 0003 

35 0.016 -0922 -0.129 0.003 0000 0003 

36 -0.117, -0.889 -0.163 0.003 0003 | 0003 

37 | [|1| 0542 -1939 -0.135| 2.491 输出 上 1 |-0001 -0.13 |-0.026| -0.148 
38 | |s|2|-1158 -2.106 -1028| -3263 层 2 |0.000 0015 0003 | 0017 



































@@ 利用 4-2 节 式 (11) 


@ 计算 出 代价 函数 Cj 和 它 的 梯度 VC， 

到 目前 为 止 ， 我 们 取 第 1 张 图 像 作为 学 习 数据 的 代表 进行 了 计算 。 
我 们 的 目标 是 对 全 部 数据 执行 同样 的 计算 ， 并 将 结果 加 起 来 。 因 此 ， 这 
里 需要 对 全 部 64 张 图 像 的 学 习 数据 复制 目前 建立 的 工作 表 。 
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的 
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| 0090| 2483| -1392| 
算 丢 
出 
变 
量 | 输出 
值 | 层 
C 
输出 
算 | 层 
出 
5 | 隐藏 
层 
平 
方 
误 | 隐 
差 | 藏 
的 | 层 
偏 
导 
数 3 0.003 0000 0.003 p | 有 人 
0.003 0000 0.003 ) -0.026 0.000 0.000 
| 1 4 h 0.000 -0026 0.000 
输出 1 -0001 -0.13 -0.026 -0.14 中 0.075 | 0.042 0.081 0.018 0.088 
层 2 0.000 0.015 0.003 | 0.017 -0.106 | -0.050 -0.097 -0.021 -0.105 


将 从 单元 格 L10 到 038 的 64 个 块 状 区 域 复制 到 右边 。 








将 64 份 数据 复制 完毕 后 ， 对 平方 误差 C 以 及 @ 中 求 出 的 平方 误差 C 

















ij 导 数 进行 加 ， 








总 ， 这 样 就 得 到 了 代价 函数 Cr 和 它 的 梯度 VC ( 下 图 )。 
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G39 一 大 | =SUNCL17:JG17) 
2 
“1 | 数字 0 和 1 的 识别 
是 
3 
ES 
| 
6 
7 
8 
10 0348 0.073|-0185 
11 1 | 9337 -0071 -3.617 
12 -0.536 -0023 -1.717 算 
13 | -1456 -0.556 0.852 出 
14 0.442 -0537 1.008 | 0526 二 
| | 隐 
15 | | 藏 | :| 1072 -0733 0823 值 
16 | | 层 | | -0453 -0014 -0.027 
17 -0.427 1.876 -2305 
18 0.654 -1389 1246 
19 3 | 0057 -0183 -0743 
| 20 -0461 0331 0.449 
[2 | | 
22 | |*|1| 0388 0803 0029 
23 | |s|2|0025 -079 1553 
24 
25 
| 26 
27 014 0.093 | -0.022 
28 000 .0.080 | -0.011 平 
E29 | 方 -0014 -0014 
30 | 藏 关 -0014 0.000 
31 | | 层 的 -0.014 0.000 
32 篇 -0014 -0014 
| 33 | 己 0.003 | 0.003 
34 数 0.003 0.000 
35 0.003 0000 
36 117 -0.889 -0.163 0.003 ”0.003 
37 542 | -1939 -0.135| -2. 1 |-0001 -0.13 
38 -1. 四 | 0.000 0.015 
39 




















…....….GE 算 阵 的 和 、 差 与 Excel 
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Excel 中 没有 计算 憩 阵 的 和 、 差 以 及 常数 倍 的 函数 ， 这 是 因为 Excel 不 需 
要 使 用 函数 。 例 如 ， 想 要 计算 A1:B3 与 P1:03 存储 的 两 个 矩阵 的 和 ， 并 将 结 
果 存 储 到 X1:Y3 时 , 选 定 区 域 X1:Y3, 并 将 A1:B3 和 P1:Q3 用 “+ ”号 联结 ， 
同时 按 Ctrl + Shift 键 就 可 以 了 ( 即 进行 数组 计算 )。 利 用 这 种 方法 ， 计 算式 








的 输入 就 变 简 单 了 。 
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QD 根据 (6) 中 求 出 的 梯度 ， 更 新 权重 和 偏 置 的 值 
利用 梯度 下 降 法 的 基本 式 (4-1 节 式 (8) )， 求 出 新 的 权重 和 








值 。 用 Excel 实现 时 ， 在 上 一 个 表 的 下 面 制 作 下 图 所 示 的 表 ， 并 在 其 


入 用 于 更 新 的 公式 (4-1 方式 (9) )。 


a BIcT 1 3 G 
数字 0 和 1 的 识别 


















































mm Nn 
四 


EE 


! 
| 7 0 4-1 节 式 (8) 


a | w|i) os -i939 0135| 39 
[8 [Ss [2 [ss 2106 -028] -3203 


































































































39 

注 利用 4-1 节 式 (9) 

41 | fw. se] 

4 5345 0335 O07 

43 1| 0840 -0091 -3614 

44 -0533 -0.041 -1713 

45 -1.456 -0.572 0.855 

46 0446 -0.575 1 

好 二 | 1168 -0851 0 

48 | | 层 | |-0346 -0143 0 

49 -0369 1.838 - 

lsol 0753 -1230 0 (4 

Sl 0.054 0.009 -0726 节 式 (8)、 )， 计 算 新 
村 罗 的 从业 在 第 1 次 计 
本 | 算 @~ @ 的 块 状 区 域 后 空 出 











| [os0 tt 0056[-0500]| (一 © 的 决 状 区 
55 1 行 ， 开始 第 2 次 计算 。 

















更 新 后 的 权重 和 偏 置 的 值 





























前 置 的 
中 朗 
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反复 进行 B) 一 @) 的 操作 
利用 @ 中 计算 出 的 新 的 权重 w 和 


























人 
豆 


BTCT 5 了 



































数字 0 和 1 的 识别 












































Seon elo ln 





好 
四 





如 
E33 














与 
m 克 东 























































醒 央 对 乓 站 














[oo056 | 



































涟 笑 匣 写 采 泥 半 蒜 





























0.000 0.079 0.026 














出 路 5»， 再 次 进行 从 (3 开始 的 处 理 。 


复制 ~ 人 
中 计算 出 的 
相应 部 分 





将 这 样 计 算出 的 从 41 行 到 71 行 的 1 个 块 状 区 域 复制 50 份 到 下 面 ， 


进行 50 次 计算 。 
注 , 这 里 的 50 并 没 








特别 的 含义 ， 只 是 作为 


























个 齐整 的 数字 使 用 。 
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0.631 -2.044 
1.847 -1.631 
0.781 -1.377 
0.479 0.573 



























0.653 


并 fe 
J1939 eo 


-0516 
-1.611 

















计算 出 的 权 
了 重 和 信人 





















[3 


1 0011 | 0017 
3.143 | -3.243 
0959 | 0038 























人 | 了 1 1308 3.576 -3.040 | -0.332 
S|211445 区 4055 | -0.941 


| 
Ez 









aCiab 

















区 各 茶树 有 帐 新吉 忆 






































次 计算 后 的 代价 函 





数 的 值 


将 41 行 到 71 行 的 1 个 块 状 区 域 复制 50 份 到 下 面 。 




















通过 以 上 步骤， 计算 就 结束 了 。 我 们 来 看 看 代价 函数 Cr 的 值 。 


学 习 数 据 由 64 张 图 





的 式 子 (4-1 节 式 (3) )， 
算出 的 是 se。 的 结 





代价 函数 Cr = 0.245 


像 构成 ， 每 张 图 像 平 均 为 0.004。 根 据 平方 误差 
每 张 图 像 的 最 大 误差 为 1， 因 此 可 以 说 以 上 步 又 


此 外 ,通过 跟踪 50 次 代价 函数 的 计算 结果 ， 可 以 直观 地 理解 梯度 下 
es 代价 函数 Cr 的 值 随 着 每 次 迭代 而 减 小 ， 这 从 罗 辑 上 看 也 是 
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理所当然 的 ， 而 梯度 下 降 法 的 优点 就 是 减 小 的 速度 最 快 。 


3 
4 
5 
6 
7 
8 
9 





— 
S 


es E33 关系 式 的 矩 阵 表 示 
用 和 矩 阵 表 示 式 子 ， 有 时 会 使 式 子 变 简洁 。 例 如 ，4-3 节 的 式 (4) 和 式 (15) 
可 以 用 和 矩阵 简洁 地 如 下 表示 。 
oC 


3 证 3 
po dy 
中 || \el) 


式 ( 国 -| 过 上 | 可 ; 
































这 里 的 表示 Hadamard 乘积 ( 2-5 节 )。 
用 计算 机 进行 计算 时 ， 将 式 (x) 改写 为 以 下 形式 会 比较 方便 。 

















cal a'(zf ) 
Wi 

52 | Wi 13 © a'(z2) 
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用 新 的 数字 来 测试 


我 们 创建 的 神经 网 络 是 用 于 识别 手写 数字 0、! 的 。 因 此 ， 
我 们 用 新 的 手写 数字 来 确认 它 能 否 正确 地 识别 数字 0、1。 

下 面 的 Excel 工作 表 是 利用 第 @ 步 得 到 的 权重 和 偏 置 ， 输 
入 右边 的 数字 图 像 并 处 理 的 例子 。 












































L16 可 5 天 中 =IF (L14>N14, 0, 1) 

















2 ol vl | Fle fall 
数字 0 和 1 的 识别 测试 
























图 像 的 
位 模式 
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3 | 2723 
} | 093s] 























层 第 2 个 神经 单元 的 输 
值 比 第 1 个 神经 单元 的 
因此 判断 为 0 
























































人 @ 中 得 到 的 权重 条 


利用 (8) 中 得 到 的 权重 和 偏 置 ， 对 新 的 数据 计算 输出 层 的 神经 单元 输出 。 如 果 第 2 个 神 
经 单元 的 输出 值 比 第 1 个 神 单元 的 小 ， 就 判断 为 0。 




































































人 来 判断 的 话 可 能 会 认为 “ 那 也 许 是 0"， 而 神经 网 络 也 
判断 为 “0”。 

下 面 的 工作 表 是 输入 右边 所 示 的 数字 图 像 时 的 例子 。 人 来 
判断 的 话 会 认为 “ 那 也 许 是 1”"， 而 神经 网 络 也 判断 为 “1”。 
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[ECD Co 全 el | R | 
a 数字 0 和 1 的 识别 测试 
2 
3 
4 
5 
6 
fe 
8 
日 | |w. 5 的 位 1 3 
10 隐藏 层 | z? | 1424| -3337| 5782 
11 1 a? | 0806| 0034| 0997 
12 az3 | 0.156| 0.033| 0003 
13 输出 层 | z | -4.294| 4.184 
14| | 隐 a3 | 0013 | 0985 
15| | 藏 |， 
16| | 层 判定 | 1 
17 
18 
9 3 人 人 、 一 A 人 、 
输出 层 第 2 个 神经 单元 的 输 
J 出 值 比 第 1 个 神经 单元 的 
Ey 2 大 ， 因 此 判断 为 1 
利用 @ 中 得 到 的 权重 和 偏 置 ， 对 新 的 数据 计算 输出 层 的 神经 单元 输出 。 如 果 第 2 个 神 
经 单元 的 输出 值 比 第 1 个 神 单元 的 大 就 判断 为 1。 








tin 矩阵 计算 与 Excel 函数 
如 前 面 的 备注 所 述 ， 在 神经 网 络 的 计算 中 ， 利 用 矩阵 常常 会 使 式 子 变 得 
简单 ， 计 算 也 变 得 更 容易 。 因 此 ， 在 使 用 Excel 时 ， 建 议 也 利用 这 个 特点 。 
Excel 中 有 以 下 和 抢 阵 函数 ， 它 们 在 神经 网 络 的 计算 中 经 常 被 用 到 。 













































































MMULT 计算 和 矩阵 的 乘积 
TRANSPOSE 计算 矩阵 的 转 置 














Excel 中 没有 计算 Hadamard 乘积 的 函数 ， 但 我 们 可 以 将 矩阵 作为 数组 
来 简单 地 处 理 。 





深 
为 深度 


度 学 
学 习 


== 
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深度 学 习 和 卷 积 神经 网 络 


习 是 人 工 智 能 的 一 种 实现 方法 。 本 章 我 们 将 考察 作 





的 代表 的 卷 积 社 


经 网 络 的 数学 结构 
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小 恶魔 来 讲解 卷 积 神经 网 络 的 结构 











深度 学 习 是 重合 了 很 多 层 的 隐藏 层 ( 中 间 层 ) 的 神经 网 络 。 这 样 的 
神经 网 络 使 隐藏 层 具有 一 定 的 结构 ， 从 而 更 加 有 效 地 进行 学 习 。 本 节 我 
们 就 来 考察 一 下 近年 来 备 受 关注 的 卷 积 神经 网 络 的 设计 思想 。 








使 网 络 具有 结构 


卷 积 神经 网 络 是 当下 正 流行 的 话题 ， 尚 且 难 以 总 结 一 般 理论 。 这 里 ， 
我 们 利用 一 个 最 简单 的 例题 来 考察 一 下 卷 积 神经 网 络 的 思想 。 如 下 所 示 ， 
这 个 例题 是 由 前 面 考察 过 的 例题 整理 而 成 的 ， 它 虽然 简单 ， 但 是 能 够 很 
好 地 帮助 我 们 理解 卷 积 神经 网 络 的 结构 。 


ee Ee et a dh ee 











出 
J 
兴 
| 
从 
还 
这 
洲 
ay 
长 
上 
器 


i ,0 0d Rt 


首先 ， 我们 来 介绍 一 下 作为 这 个 回国 的 解答 的 卷 积 神经 网 络 的 示例 ， 
如 下 页 的 图 所 示 。 
图 中 用 圆圈 将 变量 名 圈 起 来 的 就 是 神经 单元 ， 从 这 个 图 中 我 们 可 以 
了 解 到 卷 积 神经 网 络 的 特点 。 隐 藏 层 由 多 个 具有 结构 的 层 组 成 。 具 体 来 
说 ,隐藏 层 是 多 个 由 卷 积 层 和 池 化 层 构 成 的 层 组 成 的 。 它 不 仅 “ 深 ”， 而 
且 含有 内 置 的 结构 。 
注 : 卷 积 层 的 英文 是 convolution layere。 这 里 展示 的 是 最 原始 的 卷 积 神经 网 络 ， 实 际 的 
网 络 更 为 复杂 。 
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四 像 作为 回国 的 解答 示例 的 卷 积 神经 网 络 的 

- 标 为 像素 编号 ) ” 图 。 本 章 我 们 将 讲解 这 个 神经 网 络 。 图 中 

X21 [| X24 | X25 | X26 县 的 神经 单元 名 是 后 将 考察 的 输出 变量 
( 


21 
X31 |X32 | 区 到 | X34|X35|X36 名 5-3 节 )5 
X41 |X4 | X44|X4s |X46 己 > 层 
卷 积 层 池 化 层 
八 /二 / Ec 
Xsl|Xs | Xs |Xss|Xse 
61 6 


Xx 





XI XI WX |Xis |Xi6 
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人 们 是 如 何 想 到 这 样 的 结构 的 呢 ? 如 果 我 们 了 解 了 卷 积 神经 网 络 的 
思路 ， 就 可 以 在 各 种 领域 中 进行 应 用 。 这 里 我 们 也 同样 请 第 1 章 登 场 的 
“恶魔 ”来 讲解 。 

在 1-5 节 考 察 过 的 神经 网 络 中 ， 住 在 隐藏 层 的 恶魔 具有 各 自 偏好 的 
模式 。 恶 麻 对 自己 偏好 的 模式 做 出 反应 ， 输 出 层 接收 这 些 信 息 ， 从 而 使 
神经 网 络 进 行 模式 识别 成 为 可 能 。 

本 节 登 场 的 恶魔 与 之 前 的 恶魔 性 格 稍微 有 点 不 同 。 虽然 他 们 的 共同 
点 都 是 具有 自己 偏好 的 模式 ， 但 是 相 比 第 3 章 登 场 的 恶魔 坐 着 一 动不动 ， 
这 里 的 恶魔 是 活跃 的 ， 他 们 会 积极 地 从 图 像 中 找 出 偏好 的 模式 ， 我 们 称 
之 为 小 恶魔 。 

为 了 让 这 些小 恶魔 能 够 活动 ， 我 们 为 其 提供 工作 场所 ， 那 就 是 由 卷 
积 层 与 池 化 层 构 成 的 隐藏 子 层 。 我 们 为 每 个 小 恶魔 准备 一 个 隐藏 子 层 作 
为 工作 场所 。 
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提供 能 让 小 恶魔 活 
动 的 工作 场所 ( 外 
侧 的 框 )。 这 个 隐 
藏 子 层 的 编号 为 1。 


























活路 的 小 恶魔 积极 地 扫描 图 像 ， 检 查 图 像 中 是 否 含有 自己 偏好 的 模 
式 。 如 果 图 像 中 含有 较 多 偏好 的 模式 ， 小 恶魔 就 很 兴奋 ， 反 之 就 不 兴奋 。 
此 外 ， 由 于 偏好 的 模式 的 大 小 比 整个 图 像 小 ， 所 以 兴奋 度 被 记录 在 多 个 
神经 单元 中 。 
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小 恶魔 扫描 图 像 数据 ， 根 据 检 测 到 的 偏好 模式 的 多 少 而 产生 兴奋 ， 其 兴奋 度 会 被 记录 在 
卷 积 层 的 神经 单元 中 。 神 经 单元 名 中 F1 的 F 为 Filter 的 首 字母 ，1 为 隐藏 子 层 的 编号 。 
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注 : 一 般 
示 的 3x3 的 大 小 。 











于 扫描 的 过 滤器 的 大 小 是 5x 5。 这 里 为 了 使 结果 变 简单 ， 我 们 使 






































活跃 的 小 恶魔 进一步 整理 自 








后 的 兴奋 度 形 成 了 池 化 层 。 














9 兴奋 度 ， 将 兴奋 度 集中 起 来 ， 整 理 











池 化 层 的 建立 。 小 恶魔 将 扫描 结果 
的 兴奋 度 ( 中 等 ) 进一步 集中 起 来 ， 
整理 为 池 化 层 的 神经 单元 。 池 化 层 中 
浓缩 了 小 恶魔 所 偏好 的 模式 的 信息 。 
神经 单元 名 中 P1 的 P 为 Pooling 的 
首 字 母 ，1 为 隐藏 子 层 的 编号 。 
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因此 ， 池 化 层 的 神经 单元 中 浓缩 了 作为 考察 对 象 的 图 像 中 包含 了 多 
少 小 恶魔 所 偏好 的 模式 这 一 信息 。 

1-5 节 介绍 的 恶魔 每 人 有 一 个 偏好 模式 ， 本 节 的 小 恶魔 每 人 也 只 有 一 
个 偏好 模式 。 因 此 ， 要 识别 数字 1、2、3 ， 就 需要 让 多 个 小 恶魔 登场 。 这 
里 我 们 比较 随意 地 假定 有 3 个 小 恶魔 。 输 出 层 将 这 3 个 小 恶魔 的 报告 组 
合 起 来 ， 得 出 整个 神经 网 络 的 判定 结果 。 

与 第 1 章 相 同 ， 输 出 层 里 也 住 着 3 个 输出 恶魔 ， 这 是 为 了 对 手写 数 
字 1、2、3 分 别 产 生 较 大 反应 。 
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a A 
出 层 将 3 个 小 恶 
@) 
DODO 反应 需要 3 个 


出 恶魔 。 


















































以 上 就 是 利用 小 恶魔 来 解答 回国 的 方法 。 卷 积 神经 网 络 就 是 按照 这 
一 思路 建立 神经 网 络 的 卷 积 层 和 池 化 层 的 。 

如 前 所 述 ， 第 1 章 登 场 的 隐藏 层 的 恶魔 是 毅 态 的 ， 他 们 只 是 观察 数 
据 然 后 做 出 反应 。 而 本 章 的 小 恶魔 是 动态 的 ， 他 们 会 积极 地 扫描 图 像 ， 
整理 兴奋 度 并 向 上 一 层 报告 。 由 于 这 些小 恶魔 的 性 格 特点 ， 卷 积 神经 网 
络 产 生 了 我 们 前 面 学 习 过 的 简单 神经 网 络 所 没有 的 优点 。 

人 对 于 复杂 的 模式 识别 问题 ， 也 可 以 用 简洁 的 网 络 来 处 理 。 

@ 整体 而 言 ， 因 为 神经 单元 的 数量 少 了 ， 所 以 计算 比较 轻松 。 
而 卷 积 神经 网 络 之 所 以 在 各 种 领域 备 受 瞩目 ， 也 是 得 益 于 这 样 的 性 质 。 

此 外 ， 目 前 为 止 我 们 的 讨论 都 是 假定 小 恶魔 住 在 神经 网 络 的 隐藏 层 。 
和 所 有 的 科学 理论 一 样 ， 模 型 是 否 正 确 ， 取 决 于 用 它 做 出 的 预测 是 否 能 
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够 很 好 地 解释 现实 情况 。 众 所 周知 ， 现 在 卷 积 神经 网 络 已 经 有 了 一 些 显 
著 的 成 果 ， 例 如 能 够 识别 出 YouTube 上 的 猫 的 图 像 等 。 

那么 ， 神 经 网 络 是 如 何 实现 这 里 考察 的 小 恶魔 的 活动 的 呢 ? 我 们 ; 
在 下 一 节 考 察 数学 上 的 实现 方法 。 





SR 








Es 


小 恶魔 的 人 数 


在 前 面 的 说明 中 ， 登 场 的 小 恶魔 一 共有 3 人 。 这 里 的 人 数 不 是 预先 
定 的 。 如 果 我 们 预 佑 用 5 个 模式 能 够 区 分 图 像 ， 那 么 就 需要 有 5 个 小 
恶魔 。 这 样 一 来 ， 我 们 就 应 当 准 备 好 5 个 由 卷 积 层 和 池 化 层 形成 的 隐藏 
子 层 。 
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如 果 图 像 变 得 复杂 ， 卷 积 层 和 池 化 层 形成 的 隐藏 子 层 的 数目 也 相应 地 增加 。 对 于 需 
要 多 少 个 隐藏 子 层 等 问题 ， 往 往 需要 进行 反复 试 错 来 确定 。 

















而 且 ， 在 识别 猫 的 图 像 的 情况 下 ， 隐 藏 层 的 结构 本 吴 也 需要 变 得 更 
复杂 。 这 就 是 深度 学 习 的 设计 人 员 可 以 大 展 身手 的 地 方 。 
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ee 译 为 卷 积 神 
经 网 络 的 语言 





我 们 在 5-1 节 考 察 了 卷 积 神经 网 络 的 思路 。 通 过 设想 能 够 寻找 偶 
好 模式 的 活 跃 的 小 恶魔 ， 从 而 理解 了 卷 积 神经 网 络 的 设计 思想 。 本 节 
我 们 来 看 看 如 何 将 小 恶魔 的 工作 替换 为 数学 计算 。 这 里 考察 的 回国 | 与 
上 一 节 相 同 。 


本 

















有 


从 数学 角度 来 考察 小 恶魔 的 工作 


下 面 我 们 从 数学 角度 来 考察 5-1 节 的 小 恶魔 的 工作 。 首 先 我 们 请 小 
恶魔 S$ 登场。 假定 这 个 小 恶魔 $ 喜欢 如 下 的 模式 S。 


| 小 恶魔 S 偏好 的 模式 S。 
(S 为 Slash (/) 的 让 字 母 。 


注 : 模式 的 大 小 通常 为 5x 5。 这 里 为 了 使 结果 变 简单 ， 我 们 使 用 图 中 所 示 的 小 的 3x3 
模式 。 


假设 下 面 的 图 像 “2” 就 是 要 考察 的 图 像 。 我 们 将 手写 数字 2 作为 它 
的 正解 。 














































































































到 像 “2  。 从 数学 角度 考察 小 恶魔 
处 理 这 个 图 像 的 过 程 。 
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小 恶魔 $ 首先 将 偏好 的 模式 S 作为 过 滤 需 对 图 像 进 行 扫描 。 我 们 
将 这 个 过 滤器 命名 为 过 滤器 S。 接 下 来 ， 我 们 实际 用 过 滤器 S 扫描 整个 图 
像 “2”。 











相似 度 =2 相似 度 =1 相似 度 =0 相似 度 =1 


















































相似 度 =0 相似 度 =0 相似 度 =1 相似 度 =2 















































相似 度 =0 相似 度 =0 相似 度 =3 相似 度 =0 












































相似 度 =0 相似 度 =3 相似 度 =1 相似 度 =1 


各 个 图 像 下 面 的 “相似 度 ” 表 示 过 滤器 $ 的 灰色 格子 部 分 与 扫描 图 
像 块 的 灰色 格子 部 分 吻合 的 地 方 的 个 数 。 这 个 值 越 大 ， 就 说 明 越 符 合 小 
恶魔 偏好 的 模式 。 
注 : 这 个 相似 度 是 像素 为 单 色 二 值 ( 即 0 与 1) 时 的 情况 ， 关 于 更 一 般 的 模式 的 相似 

度 ， 我 们 将 在 附录 C 中 讨论 。 






































我 们 将 这 个 相似 度 汇 总 一 下 ， 如 右 表 所 示 。 这 就 是 。 区 i1011 
根据 过 滤器 S 得 到 的 卷 积 (convolution ) 的 结果 ， 称 为 | 
特征 映射 〈 feature map )。 0|131111 
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这 就 是 在 5- 1 节 登 场 的 小 恶魔 执行 的 扫描 结果 
注 : 这 样 的 过 滤器 的 计算 称 为 卷 积 。 

卷 积 层 中 的 神经 单元 将 这 一 卷 积 的 结果 作为 输入 信息 。 各 神经 单元 
将 对 应 的 卷 积 的 值 加 上 特征 映射 回 有 的 偏 置 作为 加 权 输 入 (下 图 )。 





a 
0 











加 权 输 入 





卷 积 层 的 神经 单元 的 
加 权 输 入 。 请 注意 偏 
b 是 相同 的 。 此 外 ， 
小 恶魔 S 在 编号 1 的 
隐藏 子 层 去 叶 活动 。 



































卷 积 层 的 各 个 神经 单元 通过 激活 函数 来 处 理 加 权 输 入 ， 并 将 处 理 结 
果 作 为 神经 单元 的 输出 。 这 样 卷 积 层 的 处 理 就 完成 了 。 


enNeeee@G 
ED CC 
D999 DOOOE TL 
E2009 0000 3 

ee 


积 层 神经 单元 的 加 权 输 入 积 层 神经 单元 的 输出 。 转换 为 输出 。 





















































通过 池 化 进行 信息 压缩 


这 个 回国 的 卷 积 层 神经 单元 数目 比较 少 ， 因 此 可 以 简单 地 列 出 输出 
值 。 不过， 在 实际 图 像 的 情况 下 ， 卷 积 层 神经 单元 的 数目 是 十 分 庞大 的 。 
因此 ， 就 像 5-1 节 提 到 的 那样 ， 需 要 进行 信息 压缩 操作 ， 然 后 将 压缩 结 
果 放 进 池 化 层 的 神经 单元 中 。 
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压缩 的 方法 十 分 简单 ， 只 需要 将 卷 积 层 神经 单元 划分 为 不 重要 的 
2x2 的 区 域 ， 然 后 在 各 个 区 域 中 计算 出 代表 值 即 可 。 本 书 中 我 们 使 用 最 
有 名 的 信息 压缩 方法 最 大 池 化 ( max pooling )， 具体 来 说 就 是 将 划分 好 的 
各 区 域 的 最 大 值 提取 出 来 。 





最 大 池 化 的 结果 。 
池 化 层 的 输入 和 输 
出 为 相同 的 值 。 























注 : 池 化 操作 通常 在 2x 2 的 区 域 中 进行 ， 但 也 并 非 一 定 这 样 。 





























这 样 一 来 ， 一 张 图 像 的 信息 就 被 集中 在 紧凑 的 神经 单元 集合 中 了 。 


图 像 “2” 过 滤器 S 卷 积 层 

















中层 池 化 
再 
= DOO — 


我 们 通过 下 面 的 例子 来 复习 上 述 计算 过 程 。 





省 






























































例 利用 前 面 所 示 的 图 像 “2” 和 过 滤器 S 来 实际 计算 卷 积 层 和 池 化 层 中 神 
经 单元 的 输入 输出 值 。 设 特征 映射 的 偏 置 为 -1 ( 效 值 为 1 )， 激 活 函 数 
为 Sigmoid 函数 。 





按照 下 图 的 顺序 进行 计算 ， 如 下 所 示 。 
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卷 积 层 ( 加 权 输入 
相似 度 0 
0 
| 
3 
1 






































OloloIN 
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Real 
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OD 
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沿 

ES 

S 
育 w 
四 
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恒 
HH 
口 
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过 滤器 S 0.7310.5010.2710.50 池 化 层 
0.2710.27|0.50|073| [0.73|073 
0.27|0.27|0.88|0.27 0.88|0.88 


















































注 : 池 化 层 的 输入 和 输出 相同 。 为 了 简化 ， 神 经 单元 也 用 方 框 表示 。 

















r------------- --------------------------------------1 


与 前 面 的 四 一 样 ， 计 算 用 过 滤器 S 处 
理 右边 的 图 像 “1” 和 “3” 时 卷 积 层 和 池 化 I 
居中 神经 单元 的 输入 输出 值 。 | 








上 
























































图 像 “1” ”图 像 “3” 
解 按照 与 团 相同 的 步骤 ， 可 以 得 到 如 下 图 所 示 的 结果 。 















































































































































































































































































































































1 1 
1 1 
1 1 
1 1 
1 1 
1 1 
| | 
1 1 
1 1 
1 1 
1 1 
| | 
1 I 
| ”图像 “1” 相似 度 卷 积 层 ( 加 权 输 入 ) 

1 1 
1 0|2|111|1 -1 | 0 0 1 
— TH 0| 0| 0| 0|( 偏 置 为 -1) ! 
: ES 0 mp》 i 0 0 0 
of11111 ll 和 0 0 | 
( 特征 映射 ) 卷 积 层 [ 输出 ) | 
| 过 滤器 S 0.2710.73[0.50|0.50 池 化 层 | 
| 0.50|0.50|0.50|0.50 中 0.73|0.50| ， 
i 0.27|0.50|0.50|0.50| |l0.50l0.50| ， 
| 0.27|0.50|0.50|0.50 ! 
1 1 
1 图 像 "3” 相似 度 卷 积 层 ( 加 权 输 入 ) 1 
1 1 
1 2[1[011 1| 0 -1 0 I 
! -1| -1| 0| 1|( 偏 置 为 -1) ! 

0|0|1|2 

! IE EE ! 
! | 0|1|210 -1 0 = ! 
， 一 一 -~ 一 1|1|1|2 0 和 0L 1 
1 I 
. ( 特征 映射 ) 卷 积 层 ( 输出 ) : 
! 过 滤器 S 0.730.5010.2710.50 池 化 层 
| 0.2710.2710.50|0.73 = 0.7310.73| 
| 0.27|0.50|0.73|0.27| lo0.5010.73| ， 
0.50|0.50|0.50|0.73 | 
| | 
1 1 
1 1 


ep 














从 上 
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看 的 加 和 回国 可 以 了 解 到 ， 数 字 “2” 的 图 像 的 池 化 结果 是 由 比 


数字 “1” “3” 的 图 像 的 池 化 结果 大 的 值 构成 的 。 如 果 池 化 层 神经 单元 的 








输出 值 较 大 ， 就 表示 原始 图 像 中 包含 较 多 的 过 滤器 $ 的 模式 。 由 此 可 知 ， 
过 滤器 S 对 手写 数字 “2” 的 检测 发 挥 了 作用 。 此 外 ， 做 出 判断 的 是 输出 
层 。 与 我 们 在 第 1 一 4 章 考察 的 神经 网 络 一 样 ， 输 出 层 将 上 一 层 ( 池 化 
层 ) 的 信息 组 合 起 来 ， 并 根据 这 些 信 ， ee 
如 上 所 示 ， 我 们 将 5-1 节 考 察 的 小 恶魔 的 工作 通 思路 表现 了 
出 来 。 然 而 ， 只 有 数学 思路 还 不 能 进行 计算 。 在 下 一 ee 够 实际 



































进行 计算 ,我 们 会 将 这 些 思 路 用 数学 式 子 表示 出 来 。 


S000508D 和 EE 体验 真正 的 深度 学 习 


本 书 中 用 到 的 深度 学 习 的 














体例 子 只 是 为 了 帮助 读者 了 解 深度 学 习 的 结 



































构 ， 并 不 足以 实 R 际 应 上 
尝试 下 表 所 示 的 服务 平台 的 试 





服务 名 称 




















o 读者 在 通过 本 书 了 解 | 深度 学 习 的 结构 口 ， 就 可 以 
版 。 


说 明 





TensorFlow 














由 谷歌 提供 。 可 以 免费 地 体验 真正 的 深度 学 习 














Azure 


微软 的 云 计算 服务 平台 。 也 可 以 体验 深度 学 习 





Watson 

















1 国际 商业 机 器 公司 (IBM ) 提供 。 从 传统 的 机 器 学 习 出 发 ， 
之 后 也 引入 了 深度 学 习 的 技术 





Amazon Machine 


Learning 

















学 习 模 型 





由 亚 马 撑 提供 。 





和 村 点 是 提供 向 导 ， 可 以 按部就班 地 创建 机 器 
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5 高 甬 卷 积 神经 网 络 的 变量 关系 式 


要 确定 一 个 卷 积 神经 网 络 ， 就 必须 具体 地 确定 过 滤器 以 及 权重 、 偏 
置 。 为 此 ， 我 们 需要 用 数学 式 来 表示 这 些 参数 之 间 的 关系 。 





确认 各 层 的 含义 以 及 变量 名 、 参 数 名 
与 前 面 一 样 ， 我 们 通过 下 而 的 回国 进行 讨论 。 


' 建立 一 个 神经 网 络 ， 用 来 识别 通过 6 x 6 像素 的 图 像 读 取 的 手写 
, 数字 1、2、3。 图 像 像素 为 单 色 二 值 。 学 习 数 据 为 96 张 图 像 。 












































我 们 把 确定 这 个 卷 积 神经 网 络 所 需 的 变量 、 参 数 的 符号 及 其 含义 汇 
总 在 下 表 中 。 
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位 置 符 号 含义 
输入 层 过 神经 单元 中 输入 的 图 像 像素 (i 行 j 列 ) 的 值 。 与 输出 值 相 同 
过 滤 吕 wt an 映射 的 过 0 列 的 值 。 这 里 为 
E 了 简化 ， 考 虑 3 x 3 大 小 的 过 滤器 (通常 采用 5 x 5 大小) 
而 卷 积 层 第 个子 层 的 i 行 j 列 的 神经 单元 的 加 权 输 入 
pn 卷 积 层 第 k 个 子 层 的 i 行 j 列 的 神经 单元 的 偏 置 。 注 意 这 些 
卷 积 层 偏 置 在 各 特征 映射 中 是 相同 的 
卷 积 层 第 k 个 子 层 的 i 行 j 列 的 神经 单元 的 输出 ( 激活 函数 
, 的 值 ) 
可 池 化 层 第 个 子 层 的 i 行列 的 神经 单元 的 输入 。 通 常 是 前 
i 一 层 输 出 值 的 非 线 性 函数 值 
池 化 层 第 个 子 层 的 i 行列 的 神经 单元 的 输出 。 与 输入 值 
. 区 一 臻 
而 从 池 化 层 第 个子 层 的 i 行 j 列 的 神经 单元 指向 输出 层 第 n 
“| 个 神经 单元 的 箭头 的 权重 
输出 层 2 输出 层 第 n 个 神经 单元 的 加 权 输 入 











by 输出 层 第 n 个 神经 单元 的 偏 置 

a 输出 层 第 n 个 神经 单元 的 输出 ( 激活 函数 的 值 ) 
正解 为 1 时 , 11=1, b=0, 4=0 

学 习 数 据 t 正解 为 2 时 , 11=0, b=1, 4=0 

正解 为 3 时 , =0, b=0, =1 





























这 些 变量 和 参数 的 位 置 关系 如 下 图 所 示 。 
注 : 图 中 的 标记 遵循 3-1 节 的 约定 。 
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To 1 DY2 on oY2 
平方 误差 = 人) + (hb 40) +(h- 6) } 


+ + 


与 神经 网 络 不 同 的 是 ， 卷 积 神经 网 络 中 考虑 的 参数 增加 了 过 滤器 这 
个 新 的 成 分 。 
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接 下 来 ,我 们 会 逐 层 考察 在 今后 的 计算 中 所 需 的 参数 和 变量 的 关 
系 式 。 虽然 有 些 内 容 与 5-1 节 、5-2 节 有 所 重复 ， 但 我 们 要 从 数学 上 一 
般 化 的 角度 来 和 弄 清 楚 。 请 读者 对 照 着 5-1 节 、5-2 节 阅 读 ， 并 尝试 理解 数 


在 回国 中 ,输入 数据 是 6x6 像素 的 图 像 。 这 些 像 素 值 是 直接 代入 到 
输入 层 的 神经 单元 中 的 。 这 里 我 们 用 xy 表示 所 读 入 的 图 像 的 i 行列 位 置 
的 像素 数据 ， 并 把 这 个 符号 用 在 输入 层 的 变量 名 和 神经 单元 名 中 。 





输入 层 的 变量 名 





























入 层 神经 单元 的 位 
RE Eee 
CRMKKRKRKY| 位 置 一 致 























在 输入 层 的 神经 单元 中 ,输入 值 和 输出 值 相 同 。 如 果 将 输入 层 i 行 
j 列 的 神经 单元 的 输出 表示 为 a; ， 那 么 以 下 关系 式 成 立 (a 的 上 标 I 为 
Input 的 首 字母 )。 


就 像 5-1 节 、5-2 节 所 考察 的 那样 ， 小 恶魔 通过 3 x 3 大 小 的 过 滤 需 
来 扫描 图 像 。 现 在 ,我 们 准备 3 种 过 滤器 (5-1 市 )。 此 外 ， 由 于 过 滤器 
的 数值 是 通过 对 学 习 数 据 进行 学 习 而 确定 的 ， 所 以 它们 是 模型 的 参数 。 
如 下 图 所 示 ， 这 些 值 表示 为 wi', wz ,，… (k=1,2,3)。 





图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 
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版 权 
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构成 过 滤器 的 数 
值 是 模型 的 参 
数 。 此 外 ，F 为 
Filter 的 首 字 母 。 
































注 : 过 滤器 也 称 为 核 ( kernel )。 
过 滤 需 的 大 小 通常 为 5Sx5。 本 书 中 为 简单 起 见 ， 使 用 更 为 紧凑 的 
3x3 大 小 。 此 外 ， 也 不 是 必须 准备 3 种 过 滤器 。 当 计算 结果 与 数据 不 
致 时 ， 我 们 需要 更 改 这 个 数目 。 
现在 ， 我们 利用 这 些 过 滤器 进行 卷 积 处 理 (5-2 市 ),。 例 如， 将 输入 
层 从 左上 角 开 始 的 3 x 3 区 域 与 过 滤 带 1 的 对 应 分 量 相 乘 ， 得 到 下 面 的 卷 
积 值 ci (cc 为 convolution 的 首 字母 )。 





























FL Fl Fl Fl Fl 
CU = WX tt WX t+ Wa Xs tt Wa3Xas 


这 就 是 5-2 节 中 称 为 “相似 度 ” 的 值 。 











Fl 


i 
XxX Fl Fl Fl 
Wa | Wy | Wa Fl Fl 正 
Wi Xt Wi Xi t+ 3 eg 


XY 站 
coccccEE 
OTTO 


依次 滑动 过 滤器 ， 用 同样 的 方式 计算 求 得 卷 积 值 oy, a3,…, cu 。 这 
样 一 来 ， 我 们 就 得 到 了 使 用 过 滤器 1 的 卷 积 的 结果 。 另 外 ， 关 于 这 些 数 
值 的 数学 含义 ， 请 参照 附录 C。 

一 般 地 ， 使 用 过 滤器 大 的 卷 积 的 结果 可 以 如 下 表示 。 这 里 的 六 7 
为 输入 层 中 与 过 滤 融 对 应 的 区 域 的 起 始 行列 编号 (六 7 了 为 4 以 下 的 自 
然 数 )。 























圳 
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Fk _ Ek Fk Ek Fk 
Ci; = WiXyt WXyn tt Wa Xi tt Ws3 Nir2 j42 


这 样 得 到 的 数值 集合 就 形成 特征 映射 。 
我 们 给 这 些 卷 积 值 加 上 一 个 不 依赖 于 i、j 的 数 bpW 。 


Fk Fk Fk Fk Fk Fk 
21 = WiXy tt WX t WaXyrz tt Wa3Xir2jr2 + b 























过 滤器 
Fk Fk Fk 
四 四 四 
偏 置 加 权 输 入 
wr 把 输入 层 的 相应 区 域 
与 过 滤器 的 对 应 分 量 


相 乘 ， 再 加 上 偏 置 ， 
就 得 到 式 (1)。 























考虑 以 及 作为 加 权 输 入 的 神经 单元 ， 这 种 神经 单元 的 集合 形成 卷 积 
层 的 一 个 子 层 。 2 为 卷 积 层 共同 的 偏 置 。 
激活 函数 为 a(z)， 对 于 加 权 输 入 zr* ， 神 经 单元 的 输出 ar 可 以 如 下 
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式 (1)、 式 (2) 中 变量 和 参数 的 关系 。 图 
中 是 构成 卷 积 层 第 1 个 子 层 的 神经 单 
元 集合 。 各 个 神经 单元 的 加 权 输 入 为 
式 (1)， 输 出 为 式 (2)。 请 注意 它们 具有 
共同 的 偏 置 。 此 外 ， 这 个 图 的 标记 遵循 
3-1 节 的 约定 。 
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本 

















Sn 
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SN 
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/& 
ei 


i a a nd i a a le a a 


试 着 写 出 卷 积 层 第 1 个 子 层 的 1 行 2 列 的 神经 单元 的 加 权 输 入 
字 与 输出 ay 的 式 子 。 激 活 函 数 为 Sigmoid 函数 。 


解 3 二 WX, 十 Wi2 X13 十 Wa Xa 十 WX * WX WaXon 
十 WB1 X32 十 1 十 Wa3Xa4 +b™ 
Fl 1 
1+exp(—2z1) 

















mm 71, 








加 汉中 变量 和 参数 的 关系 。 





' 输入 层 ( 图 像 数 据 ) ， 








和 
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池 化 层 








卷 积 神经 网 络 中 设置 有 用 于 压缩 卷 积 层 信息 的 池 化 层 。 在 5-1 节 、 
5-2 节 中 ,我 们 把 2x2 个 神经 单元 压缩 为 1 个 神经 单元 ， 这 些 压缩 后 的 
神经 单元 的 集合 就 形成 了 池 化 层 。 








































































































将 4 个 神经 单元 着 积 层 将 4 个 神经 单元 
压缩 为 1 个 压缩 为 1 个 
池 化 层 的 信息 压缩 方法 。 
这 里 考察 的 卷 积 层 
4x4 个 神经 单元 构成 ， 
将 4 个 神经 和 将 4 个 神经 单元 “分 别 使 其 中 的 2x 2 个 为 
ER 压缩 为 1 个 。” “1 组 压缩 为 1 个 。 

















很 多 文献 也 和 这 里 一 样 ， 将 特征 映射 的 2x2 个 神经 单元 压缩 为 1 个 
神经 单元 。 通 过 执行 一 次 池 化 操作 ， 特 征 映射 的 神经 单元 数目 就 缩减 到 
了 原先 的 四 分 之 一 。 

注 : 如 前 所 述 ， 并 非 必须 是 2x2 大 小 。 
压缩 的 方法 有 很 多 种 ， 比 如 较为 有 名 的 最 大 池 化 法 ， 例 如 像 下 图 这 
样 ， 从 4 个 神经 单元 的 输出 mi、ap 、wi、cz 中 选 出 最 大 值 作 为 代表 。 











最 大 池 化 


Max(an ， CD da1, aal) 





下 图 左边 为 卷 积 层 的 输出 值 ， 右 边 为 最 大 池 化 的 结 


卷 积 层 的 输出 
0.27 | 0.12 | 0.05| 0.12 、 

最 大 池 化 

0.05 | 0.05 | 0.12 | 0.27 i 0.27| 0.27 

0.05 | 0.05 | 0.50 | 0.05 0.501 0.50 

0.05 | 0.50 | 0.12 | 0.12 





















































从 神经 网 络 的 观点 来 看 ， 池 化 层 也 是 神经 单元 的 集合 。 不 过 ， 从 计 
算 方法 可 知 ， 这 些 神经 单元 在 数学 上 是 非常 简单 的 。 通 常 的 神经 单元 是 
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从 前 一 层 的 神经 单元 接收 加 权 输 入 ， 而 池 化 层 的 神经 单元 不 存在 权重 和 
偏 置 的 概念 ， 也 就 是 不 具有 模型 参数 。 

此 外 ， 由 于 输入 和 输出 是 相同 的 值 ， 所 以 也 不 存在 激活 函数 的 概念 。 
从 数学 上 来 说 ， 激 活 函 数 a(x) 可 以 认为 是 恒 等 函 数 a(x) =x。 这 个 特性 与 
输出 层 的 神经 单元 相似 。 


出 

















卷 积 层 1 


! 






























































以 上 讨论 的 池 化 层 的 性 质 可 以 用 式 子 如 下 表示 。 这 里 ,为 池 化 层 的 
子 层 编 号 , i、 j 为 整数 ， 取 值 必须 使 得 它们 指定 的 参数 有 意义 。 


Pk Pk Pk Pk Pk 
21 = Max(a,, 2j-19 (270129 (2i 2j-1» zi "| 








PP = Fl Fl Fl Fl 
21 = Max(ai , qi , 1, G2 ) 












































激活 函数 a(x)=x 























池 化 层 的 神经 单元 所 接收 的 输入 中 没有 权重 和 偏 置 的 概念 。 激 活 函数 可 以 认为 是 
ao =x， 例 如 ar? = zn o 
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为 了 识别 手写 数字 1、2、3， 我 们 在 输出 层 中 准备 了 3 个 神经 单元 。 
与 第 3 章 和 第 4 章 中 一 样 ， 它 们 接收 来 自 下 一 层 ( 池 化 层 ) 的 所 有 神 


经 单元 的 箭头 〈 即 全 连接 )。 这 样 就 可 以 综合 地 考察 池 化 层 的 神经 单元 的 
言 息 


中 Go 


池 化 层 


» DE 输出 层 
特征 映射 2 2 池 化 层 的 神经 单元 和 输出 


层 的 神经 单元 是 全 连接 


图 中 的 神经 单元 名 使 用 
特征 映射 3 输出 变量 名 ( 共有 12x3 
> B39 个 季 头 ， 这 里 省 罗 


文旦 oo 











特征 映 


肖 





Lc 














9 





















































我 们 将 这 个 图 用 式 子 来 表示 。 输 出 层 第 n 个 神经 单元 (n=1,2,3 ) 的 加 
权 输 入 可 以 如 下 表示 。 


O_On ,Pl On Pl ,On ,P2 On jpP2 
Zn = Wn t+ Wd tt Wd t+ Wd 十 


On ,Pp3 On ,Pp3 oO 
+ Wa + Wd 十 … 十 多 





里 ,系数 we 为 输出 层 第 nn 个 神经 单元 给 池 化 层 神经 单元 的 输出 ay 
(k=1,2,3;i=1,2;j=1,2) 分 配 的 权重 ，4b? 为 输出 层 第 nn 个 神 & 和 单元 的 
偏 置 。 





我 们 来 具体 地 写 出 z? 的 式 子 。 


O1 ,Pl ol ol 
= Wind + Wi- pa 于 “+ Ww ol 十 Y>- a Ee 





ol ol 0 
| Wa an 上 3- 1 ts 


上 式 中 变量 和 参数 的 关系 如 下 图 所 示 。 
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卷 积 





























为 了 写 出 2 而 用 到 的 
变量 和 参数 的 关系 的 简 
略图 。 


























我 们 来 考虑 输出 层 神 经 单元 的 输出 ， 它 们 形成 了 整个 卷 积 神经 网 络 
的 输出 。 输 出 层 第 n 个 神经 单元 的 输出 值 为 a ， 激 活 函 数 为 a(z)， 则 


a? =a(z7) (5) 





a? (n=1,2,3) 中 最 大 值 的 下 标 n 就 是 我 们 要 判定 的 数字 。 


求 代价 函数 CT 


现在 我 们 考虑 的 神经 网 络 中 ， 输 出 层 神 经 单元 的 3 个 输出 为 
an、 02、 a? ， 对 应 的 学 习 数 据 的 正解 分 别 记 为 fib\b (参考 3-3 节 下 ， 
以 及 本 节 开 头 的 表 ) 于是， 平方 误差 C 可 以 如 下 表示 。 








= {0 a) + a) + ad)) (0) 











: 系 是 为 了 简洁 地 进行 导数 计算 ， 不 同 的 文献 可 能 会 使 用 不 同 的 系数 ， 这 个 系 
数 对 结论 没有 影响 。 此 外 ， 关 于 平方 误差 ， 请 参考 2-12 节 、3-4 节 。 
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输出 层 平方 误差 正解 
































本 书 采用 平方 误差 作为 误差 函 
数 。 正 解 变量 在 读 取 数字 医 
像 “1” 时 为 1， 在 其 他 情况 下 
为 0; 正解 变量 在 读 取 数字 图 像 
“2” 时 为 1， 在 其 他 情况 下 为 0; 
正解 变量 在 读 取 数字 图 像 “3” 
时 为 1， 在 其 他 情况 下 为 0。 



































































































































将 输入 第 大 个 学 习 图 像 时 的 平方 误差 的 值 记 为 Ce， 如 下 所 示 。 





=7{(0A] a [kD + (6k] -0 [Kk]) + (8k] -a3[k])} 




















注 : 关 变量 中 附带 的 [k]， 请 参考 3-1 节 。 





全 体 学 习 数据 的 平方 误差 的 总 和 就 是 代价 函数 Ct。 因此， 我 们 现在 
考虑 的 神经 网 络 的 代价 函数 Cr 可 以 如 下 求 出 。 


CT = CI 二 C 十 … 十 Co%6 (7) 
注 : 96 为 [加 到 中 学 习 图 像 的 数目 。 

















这 样 我 们 就 得 到 了 作为 计算 的 主角 的 代价 函数 Cr。 数 学 上 的 目标 是 
求 出 使 代价 函数 Cr 达到 最 小 的 参数 ， 即 求 出 使 代价 函数 Cr 达到 最 小 的 
权重 和 侦 置 ， 以 及 卷 积 神经 网 络 特有 的 过 滤器 的 分 量 ， 如 下 图 所 示 。 









































数学 上 的 目标 是 实现 参数 的 最 
优化 。 确 定 权 重 、 偏 置 以 及 过 
滤器 分 量 的 原理 与 回归 分 析 相 
























































权重 w 同 。 使 代价 函数 Ct 达到 最 小 
偏 置 b 的 参数 是 最 优 参 数 ， 而 这 样 的 


过 滤器 分 量 。 思路 就 是 最 优化 。 
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前 面 我 们 已 经 多 次 提 到 过 ， 要 确认 目前 建立 的 卷 积 神经 网 络 是 否 有 
助 于 数据 分 析 ， 就 要 实际 使 用 这 个 模型 进行 计算 ， 看 得 到 的 结果 是 否 能 


够 很 好 地 解释 给 定 的 数据 。 

一 节 ， 为 了 确认 前 面 讨论 的 内 容 ， 我 们 将 使 用 Excel 的 最 优化 工具 
(求解 器 )， 直 接 将 代价 函数 最 小 化 ， 并 求 出 使 函数 达到 最 小 时 的 过 滤器 、 
权重 和 偏 置 。 











a 








dese 人 本 起 .2 池 化 
本 节 我 们 采用 了 最 大 池 化 作为 池 化 的 方法 。 最 大 池 化 具体 来 说 就 是 使 用 
对 象 区 域 的 最 大 值 作 为 代表 值 的 信息 压缩 方法 。 除 了 最 大 池 化 之 外 ， 还 有 其 
他 池 化 方法 ， 如 下 所 示 。 








最 大 池 化 | 使 用 对 象 区 域 的 最 大 值 作为 代表 值 的 压缩 方法 

平均 池 化 | 使 用 对 象 区 域 的 平均 值 作为 代表 值 的 压缩 方法 

例如 , 对 于 4 个 神经 单元 的 输出 值 a、ay、a、@, 使 用 Jo +q2 + 十 dt 
作为 代表 值 的 压缩 方法 








L2 池 化 
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用 Excel 体 验 卷 积 神经 网 络 





本 节 我 们 通过 Excel 来 确认 一 下 前 面 考察 的 卷 积 神经 网 络 能 否 实际 地 
发 挥 作用 。 


用 Excel 确定 卷 积 神经 网 络 











对 于 下 面 的 加 有 ， 我 们 用 Excel 来 确定 卷 积 神经 网 络 。 
' 对 于 在 5-3 节 的 例题 中 考察 的 卷 积 神经 网 络 ， 确 定 它 的 过 滤 髓 、 
! 权重 和 偏 置 。 学 习 数 据 的 96 张 图 像 实 例 收录 在 附录 B 中 。 


注 : 代价 函数 使 用 平方 误差 C 的 总 和 ， 激 活 函 数 使 用 Sigmoid 函数 ， 池 化 方法 使 用 最 
大 池 化 。 


接 下 来 ， 我 们 逐个 步骤 地 进行 计算 。 
中 读 入 学 习 用 的 图 像 数据 
为 了 让 卷 积 神经 网 络 进行 学 习 ， 需 要 用 到 学 习 数 据 。 因 此 ， 我 们 将 
图 像 读 入 到 工作 表 中 ， 如 下 图 所 示 。 
第 1 张 图 像 


编号 于 | Ta 
1234556 




























































































鸣 加 
移 |e we wb 






































如 上 图 所 示 ， 将 数字 图 像 保 存在 工作 表 中 。 


























由 于 图 像 是 单 色 二 值 图 像 ， 我 们 将 图 像 的 灰色 部 分 设置 为 1， 白 色 部 
分 设置 为 0， 将 正解 代入 到 变量 二 、 总 、 访 中 。 学 习 图 像 为 数字 1 时 六 = 1， 











194 | 第 5 章 深度 学 习 和 卷 积 神经 网 络 





图 像 为 数字 2 时 b= 1, 图 像 为 数字 3 时 证 =1， 其 他 情况 下 变量 值 为 0。 
此 外 ， 学 习 用 的 图 像 数据 全 部 存放 在 计算 用 的 工作 表 中 ， 如 下 图 所 示 。 























将 学 习 数 据 汇总 并 读 入 到 计算 用 的 工作 表 中 















































注 : 如 图 中 P 列 、Q 列 所 示 ， 图 像 最 右边 的 2 列 像素 缩小 了 显示 宽度 。 











@) 设置 参数 的 初始 值 
我 们 来 设置 过 滤器 、 权 重 和 偏 置 的 初始 值 。 这 里 使 用 了 标准 正 态 分 


布 随机 数 ( 2-1 节 )。 














过 滤器 、 权 重 和 偏 置 的 


初始 值 。 利 用 








随机 数 来 输入 


























注 : 当 求解 器 的 执行 结果 不 收敛 时 ， 要 修改 初始 值 。 
































向 纤 堆 


正 态 分 布 


县 节 当 肌 藻 号 
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(3) 从 第 1 张 图 像 开始 计算 各 种 变量 的 值 
根据 当前 的 过 滤器 、 权 重 和 含 置 ， 对 于 第 1 张 图 
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像 ， 计 算出 各 个 神 


经 单元 的 加 权 输 入 值 、 输 出 值 和 平方 误差 C 的 值 。 计 算 时 利用 5-3 节 的 





















































关系 式 。 
卷 积 层 神经 单元 的 输入 卷 积 层 神经 单元 的 
(3 区 条 输出 ( 5-3 节 式 (2) ) 
N46 > 个 二 | =SUNXNMY2CL9:L11,M43:1M45) /2 
| 
lc F 6 
数字 1、2、3 的 识别 
Fl1| -1277 -0454 ”0358| 卷 积 层 | za 
1138 -22398 -1.664 
-0794 0899 0.675 
过 | 已 | -1274 2338 2301 
上 滤 0649 -0339 -2.054 
层 器 -1022 -1204 -1900 
F3| -1869 2044 -1290 
-1710 -2091 -2946 
0201 -1323 0207 


















-0.782 











0280 
P3| -1475| -2010 
-1.085 | -0.188 









































图 回国 启 轿 图 四 卫 轿 回 语 罗 国 加 罗网 轿 加 办 区 国 回 风机 图 加 因 罗 国 轿 
































[sl sei esse ee eee en essssesr ee | 


输 
出 
层 
的 
权 
重 
和 
仿 
置 

0.149 .0.003 

0.033 0.013 

0033 0.013 

0.040 -0.085 

| 0.040 0.085 

0.149 0.043 

昌 0.149 0043 

| 

1.300| 0.786 

2|| 2.106| 0109 

-1.841| 0.137 

| CC | 0038 












输出 层 神经 单 
元 的 输出 ( 5-3 
节 吉 (8) 






































池 化 层 神经 单元 的 输入 输出 ( 5-3 节 式 (3)) 
图 灵 社 区 会 员 Cheny 


算出 平方 误差 ( 5-3 节 式 (6) ) 


yangGao(2339083510@dqd.com) 专 





子 
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(@ 复制 步骤 (3) 中 建立 的 各 个 函数 到 所 有 数据 中 


将 处 理 第 1 张 图 像 时 向 入 的 各 个 函数 复制 到 其 他 图 像 数 据 中 ， 直 到 
最 后 一 个 图 像 实例 ( 该 回国 中 为 第 96 张 ) 为 止 。 



































-6.304 
-3.799 
-0.651 
0.213 
-0.838 -6.504 
-4.381 -1.897 
-5.415 ， -5.631 
-5.120 -2.488 
0.305 -6.554 
-3.062 -2.828 
-3.623 4.565 
0.004 0.162 
0.022 0.002 
0.078 0.022 
0.006 0.343 
0.229 0.553 
0.302 0.001 
0.012 0.130 
0.004 0.004 
0.006 0.077 
0.576 0.001 
0.045 0.056 
0.026 0.010 
0.162 0.021 
0.343 0.020 
0.553 0.638 
0.130 0.077 
0.149 0.043 0.576 0.002 
0.149 0.043 0.056 0.024 
| | we | | a | 
1.300 0.786 0.161 
2.106 0.109 0.130 
-1.841 0.137 0.480 
LeC | 0033| 


复制 到 96 张 图 像 数 据 中 
将 处 理 第 1 张 图 像 时 谨 入 的 各 个 函数 复制 到 所 有 学 习 数据 中 ( 96 张 
































像 A 








区 
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@) 算出 代价 函数 Cr 的 值 
利用 5-3 节 的 式 (7) 求 出 代价 函数 Cr 的 值 。 


G46 ba 捕 | =SUILCL46:VOd46) 














数字 1、2、3 的 识别 























-3.363 -3.994 
-3.363 | -3.994 
-3.363 -3.994 
-3.363 -3.994 
-3.176 -4.828 
-3.176 -4.828 
-3.176 4.828 
-3.176 -4.828 
-1.739 -5.768 
-1.739 -5.768 
-1.739 -5.768 
-1.739 -5.768 
0.033 0.018 
0.033 0.018 
0.033 0.018 
0.033 0.018 


























0.149 0.003 
0.149 0.003 
0.149 0.003 
0.149 0.003 


随 壹 盐 轴 站 人 导 负 用 赵 


| 3| 3] sl | | 3 
; 


0.149 0.043 
0.149 0.043 














1300 0.786 
-2.106 0.109 
-1.841 0.137 



































Ng2c1N /An -A MN) 
083510@qq.com) : 
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(6) 利用 求解 器 执行 最 优化 


利用 Excel 的 标准 插件 求解 器 ， 计 算出 代价 函数 Cr 的 最 小 值 。 如 下 
图 所 示 ， 设 置 单元 格 地 址 ， 并 运行 求解 器 。 










































































































































































求解 器 的 设置 
规划 求解 参数 | 
sua © 国 - 必 -| 设置 代价 函数 的 单元 格 
到 : 回 最 大 值 如 回 最 小 值 四 日 目标 什 :WD [0 
通过 更 改 可 变 单元 格 ; @) 
设置 过 滤器 、 
道 守 约束 权重 和 偏 置 的 
2 单元 格 
本 改 @) 
遇 除 吧 
全 部 重 置 @) 
装 入 /保存 QU) 
国 [二 ES ES 大 和 
选择 求解 方法 : @) 非 线性 ce | 
求解 方法 
及 非 结 性 规划 求解 问题 选择 ,GR 非 线性 引擎。 为 线性 规划 求解 问题 选择 单纯 线性 规划 引 11 1 3 
he 1 
13 5.825 -14571 -6945 
14 4389 8317 1214 
部 助 0 关上 ao@ | 网 民 1950 14210 5.029 
16 3 4344 -1471 -12.478 
17 加 -1346 -5.859 -2.408 
18 -0785 4159 
|19) 0.468 -8.465 
20 
21 
22 
23 
24 
25 
26 




















0.430 
2.060 





3 
部 薪 志 有 山东 全 弄 乓 莹 


右 图 显示 了 求解 器 算出 的 过 滤 
器 、 权 重 和 含 置 的 值 。 由 于 代价 函 
数 Cr 的 值 为 0， 所 以 可 知 这 个 卷 积 
神经 网 络 完美 地 拟 合 了 学 习 数据 。 






























































隐隐 从 谷 褒 广 从 隐 茹 区区 加 医 隐 隐 





测试 
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为 了 确认 步骤 @ 中 得 到 的 过 滤器 、 权 重 和 偏 置 确定 的 卷 
积 神经 网 络 是 否 能 正确 地 工作 ， 我 们 试 着 输入 新 的 数据 ， 例 
如 右边 的 图 像 。 卷 积 神经 网 络 的 判断 结果 是 数字 “1”， 这 与 


人 类 的 直观 感受 一 致 。 

































































































































































JId7 ~ 包 友 | =VYLOOKUP (MAX (4d3:Md5), M43:N45, 2, 0) 
alNBICID E F GE Ia| I So L 其 N 0 .: 及 
| 三 | 数字 1、2、3 的 识别 
2 测试 编导 | 
3 考 入 
上 汪 2 后 
3 位 模式 
€ 
1 
8 
名 
于 | 1 | 2 | s 1 号 | 
1 2 测试 医 
| | 1950 14210 5.029 4 |-13.492 -10.765 -16205 4986 测试 图 像 的 
必 二 | 如 4344 -1.471 -12.478 1 | -8.543 -9218| 0.288 ， 5.587 像素 模式 
于 | | 发 -1346 -5.859 -2.408 2 |-13.572 -23.428 -6.691 | -8.623 
18 -0785 4159 -0.542 3 |-13.572 -23.428 -6.691 | -8.623 
[19| 0.468 -8.465 4.508 4 |-15.979 -29.287 -10.444 -14.482 
20 0.183 -2.5 1 | -5.422 | -5.540 -13.079 | -0.853 
[21 | [FM bias || -14.706 | -13.5 ¥ 2 | -4.879 -9.699 -11.752 -5.013 
22 下 -0317| 0. 3 | -4.879 -9.699 -11.752 -5.013 
[zaj -3.223 4 | 4.649 -12266 -11338 -7.580 
2 | 1 | 0000 0000 0000 0.015 
25 0.402 | -1.571 2 | 0.000 0000， 0000， 0.035 
26 33|| -3.661| 1908 3 | 0.000 0.000， 0.000 0.035 
27 | | 物 | 0.009 | -0.159 4 | 0000 0.000 0.000. 0993 
a | 出 pl 区 加 -0.642 1 | 0000 0.000 0.572| 0.996 
29 -11.069 | 9.001 2 | 0000 0000 0.001 0.000 
30 | | 权 到 12.096 3 | 0000 0.000 0.001 0.000 
[ar| | 备 -0.352 | 10.159 4 | 0000. 0.000 0.000. 0.000 
| | 和 0.430| 1.672 1 | 0004 0004 0.000 0299 
33 | | 俱 如 [| -0.093 2 | 0008 0000. 0.000 0.007 
晤 串 | 得 引 中 2.775 | 3 | 0008 0000 0000 0.007 
[a5| 43.616 4 | 0009 0000 0.000 0.001 
36 B2|| 0755| 0213 池 化 屋 1 | 0000 0.035 
37 | -0.138 | -8.731 2 | 0.000 0993 
38 P3|| -086| -0.851 1| 0000 0996 
39 | -0.167 | -3019 2 | 0000 0.001 
40 O 层 bias|| 14.764 |-21.116 | 1 | 0.008 0.299 
[ai| 2 | 0009 _0.00 
经 adE | 和 i 竺 - 输出 最 大 值 的 神经 
3 12 = 四 、 
[44 2 |-11.659| 0.000|| > 单元 的 编号 就 是 判 
Ea 3 | -9209| 0000|| 3 定 的 数字 
| 47 | 淹 定 














人 @@ 中 得 到 的 过 滤 











器 、 权 重 和 偏 置 














这 个 例子 中 输入 了 与 字母 | 相似 的 数字 1 的 医 








数字 的 判定 结果 











像 。 尽 管 如 此 ， 判 定 结果 也 是 1。 











200 | 第 5 章 深度 学 习 和 卷 积 神经 网 络 


卷 积 神经 网 络 和 误差 反 向 传播 法 





第 4 章 我 们 考察 了 多 层 神经 网 络 的 误差 反 向 传播 法 的 结构 及 其 计算 
方法 。 本 市 我 们 来 考察 卷 积 神经 网 络 的 误差 反 向 传播 法 的 结构 。 其 实 它 
在 数学 上 的 结构 与 误差 反 向 传播 法 相同 。 我 们 通过 下 面 这 个 之 前 考察 过 
的 具体 例子 进行 讨论 。 


二 














ol et Neel Nel ed fe 2 0 oe Pe nt ee oe ed 1 He a dt eh El Et Eh Ce a i sl i ee 


确认 关系 式 


对 于 这 个 回国 ， 我 们 建立 了 如 下 图 所 示 的 卷 积 神经 网 络 并 进行 了 讲 
解 。 接 下 来 ， 我 们 来 汇总 一 下 前 面 考察 过 的 关于 这 个 网 络 的 关系 式 。 






























是 


ss 上; 


注 : 神经 单元 的 名 称 使 










































































@ 卷 积 层 
为 卷 积 层 的 子 层 编 号 ，i、j (i,j= 1,2,3,4) 为 扫描 的 起 始 行 、 列 的 
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车 














号 ， 有 以 下 关系 式 成 立 (5-3 节 式 (1)、 式 (2) )。a(z) 表示 激活 函数 。 


Fk 
也。 


mie dW 束 
jy = WiXy TT Wy Xn TT Wa Xr2 


Ek we we 
Wi Xi FT Way HH T Wo3 Nir jr2 





(1) 


本 Fk Fk Fk 
+t WiXi2p 十 32 Kir jn + Wa3Xis2js2 + b 


Fk Fk 
ay =alzy ) 


j+2 


@ 池 化 层 

为 池 化 层 的 子 层 编号 (上 = 1, 2, 3 )，i、 jj 为 该 子 层 中 神经 单元 的 行 、 
列 编号 (i,j=1,2)， 有 以 下 关系 式 成 立 (这 里 是 最 大 池 化 的 情况 ， 参 考 
5-3 节 式 (3) )。 














2) 


Pk Pk Pk Pk Pk 
2; = Max(qyi1j4s Qi12js 92s | 





注 : Max 函数 输出 ( ) 内 最 大 项 的 值 。 





@ 输出 层 
n 为 输出 层 神经 单元 的 编号 (n=1, 2,3)(5-3 节 式 (4)、 式 (5))， 有 
以 下 关系 式 成 立 。a(z) 表示 激活 函数 。 


0 Da Pl On ,Pl wa .Pl On pl 
Zn = Wn + Wd 十 Wi-21021 十 W202 








On ,P2 Ox PFP2 ， On PP2 On 了 2 

t WA FW 0 +t Wd + W202 G) 
I 3 Dn PS Cn 3 On 二 

+ WA + W202 + W902 十 W3-22022 + Db, 





a? = a(z°) 


@ 平方 误差 
i、b、B 为 表示 学 习 数 据 正解 的 变量 ,，C 为 表示 平方 误差 的 变量 
有 以 下 关系 式 成 立 (5-3 节 式 (6) )。 











C 5 a + a + -ar))} Gd 
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第 4 章 中 应 用 了 梯度 下 降 法 来 确定 神经 网 络 的 参数 。 同 样 地 ， 在 确 
定 卷 积 神经 网 络 的 参数 时 ， 梯 度 下 降 法 也 是 基础 。 以 Cr 为 代价 函数 ， 梯 
度 下 降 法 的 基本 式 可 以 如 下 表示 (2-10 节 )。 





(Awi, a Awn1, i AD ， SR AD ， …) 








7 6Cr 人 6Cr a 6Cr a or 
Ow 9» 奥 6wo 9» > Op™! Es > Op? 





式 子 右边 的 括号 中 为 代价 函数 Cr 的 梯度 。 如 式 (5) 所 示 ， 这 里 以 关 
于 过 滤 融 的 偏 导数 、 关 于 权重 的 偏 导数 ， 以 及 关于 偏 置 的 偏 导数 作为 分 


量 ( 共 69 个 分 量 )。 

















代价 函数 Ci 的 梯度 
{6 oC oC oC 
BY ls Be ee se me DR 


| || | 11 | 
V V 


关于 过 滤器 | | 关于 输出 层 神经 | | 关于 卷 积 层 神经 | | 关于 输出 层 神 


的 偏 导 数 单元 的 权重 的 偏 | | 单元 的 偏 置 的 偏 | | 经 单元 的 偏 
导数 导数 的 偏 导 数 































































































正如 第 4 章 中 考察 的 那样 ， 这 个 梯度 的 偏 导数 计算 非常 麻烦 。 因 此 ， 
人 们 想 出 了 误差 反 向 传播 法 ， 具 体 来 说 就 是 将 梯度 分 量 的 偏 导数 计算 控 
制 到 最 小 限度 ， 并 通过 递 推 关系 式 进行 计算 。 








从 式 (5) 可 以 看 出 ,代价 函数 Cr 是 梯度 计算 的 目标 。 把 从 学 习 数据 的 
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第 不 张 图 像 得 到 的 平方 误差 式 (4) 的 值 记 为 CC， 代价 函数 Cr 可 以 如 下 求 出 。 
Cr=C+C+…+Co (96 是 学 习 数 据 的 图 像 数 目 ) (6) 
从 式 (6) 中 也 可 以 看 出 ， 代 价 函 数 Cr 是 从 学 习 数据 的 各 个 图 像 得 到 
的 平方 误差 式 (4) 的 和 。 我 们 在 4-1 节 考 察 过 ， 求 代价 函数 Cr 的 偏 导数 


时 ， 先 对 式 (4) 求 偏 导数 ， 然 后 代入 图 像 实例 ， 并 对 所 有 学 习 数 据 求 和 就 
可 以 了 。 因 此 ， 从 现在 开始 ， 我 们 考虑 以 式 (4) 为 对 象 的 代价 函数 的 计算 。 
































oC 


求 式 (5) 右边 的 梯度 分 量 一 时 ， 如 果 先 求 式 (6) 的 Cr 再 求 偏 导数 ， 


就 会 浪费 不 少 工夫 。 首 先 计算 式 (4) 的 平方 误差 C 的 偏 导数 ， 然 后 将 图 像 
实例 代入 式 中 ， 算 出 254 [=1, 2,…, 96 (96 为 全 部 图 像 的 数目 )]， 最 


后 对 全 部 数据 进行 求 和 就 可 以 了 。 这 样 极 大 地 减少 了 偏 导数 的 计算 次 数 。 




















( 偏 导数 的 计算 次 数 为 96 次 ) 


将 数据 代入 ac _ ac ac oc, 
式 (4) 的 C 中 全 TOT tC BT Bw ow ow 














( 偏 导 数 的 计算 次 数 为 1 次 ) 











对 式 (4) 的 C 0 oC: 
求 偏 导数 。 ”> 将 数据 代入 Br 中 一 六 BUT 代入 数据 后 的 和 























利用 计算 方法 2 极 大 地 减少 了 偏 导 数 的 计算 次 数 。 





之 后 我 们 将 按照 呵 加 的 方法 进行 计算 。 因 此 ， 除 了 必要 的 情况 之 外 ， 
不 再 将 图 像 编 号 表现 在 关系 式 中 。 





符号 6! 的 导入 及 偏 导数 的 关系 


与 第 4 章 一 样 ， 我 们 在 误差 反 向 传播 法 中 导入 名 为 神经 单元 误差 的 6 
符号 。 现 在 我 们 考察 的 回国 中 ， 神 经 单元 误差 5 有 两 种 : 一 种 是 6)* 的 形 
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式 ， 表 示 卷 积 层 第 个 子 层 的 i 行列 的 神经 单元 误差 ， 另 一 种 是 5° 的 形 
式 ， 表 示 输 出 层 第 n 个 神经 单元 的 误差 。 与 第 4 章 一 样 ， 这 些 5 符 号 是 
通过 关于 加 权 输 入 六 、z?( 式 (1)、 式 (3) ) 的 偏 导数 来 定义 的 。 








5 -OC ( 卷 积 层 第 1 个 子 层 的 1 行 1 列 的 神经 单元 的 误差 ) 


11 Fl 
Ci 


50 - 2C (输出 层 第 1 个 神经 单元 的 误差 ) 






























































的 变量 的 位 置 关 系 ( 神经 单元 的 表示 请 参考 3-1 节 )。 


与 第 4 章 的 神经 网 络 的 情况 一 样 ， 平 方 误差 C 关 于 参数 的 偏 导 数 可 
以 通过 这 些 神经 单元 误差 6 简洁 地 表示 。 接 下 来 ,我们 来 考察 这 个 事实 。 





利用 式 (3)、 式 (7) 和 偏 导数 链 式 法 则 (2-8 节 )， 我 们 可 以 进行 下 面 
的 因 轿 、 的 计算 。 
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6C oC Oz° 














例 3 = =6°ar? 
B O20 Ow 
6C 6cC 6z° 
例 4| = 一 一 -=60 
6 6z0600 
Oz? Pp2 oC_ 
ol 二 如) 8z9 1 








池 化 层 第 2 个 子 加 
层 的 2 行 1 列 的 权重 
神经 单元 











平方 误差 的 变量 和 参数 
的 关系 图 。 

















我 们 可 以 将 四 同 、 加 辐 一 般 化 为 如 下 的 式 (8)。 这 里 , n 为 输出 层 的 
神经 单元 编号 ,为 池 化 层 的 子 层 编号 ，i、j 为 过 滤 融 的 行 、 列 编号 (i, 
Pe 2 

















OC so 6C _ yo 





Bo ?po 


Ky 





下 面 我 们 来 考察 关于 卷 积 层 神经 单元 的 梯度 分 量 。 这 里 取 过 滤器 分 
量 wi 的 偏 导数 作为 例子 。 首 先 ， 根 据 式 (1)， 有 





Fl Fl Fl Fl Fl Fl Fl 
21 = WX t Wa Xi tT WaXis t WX + Wy Xs 十 W237T23 
Fl Fl Fl Fl 
+ WX + WX3y + Wa3X33 + 


Fl _ ,FI Fl Fl Fl Fl Fl 
212 = WX tT WoXs3 tT WiaXa 十 Wo t WX + Wa3Xoa 





Fl Fl Fl Fl 
+ WiX3 + WaaX33 十 33234 +D 
Fl Fl Fl Fl Fl Fl Fl 
Z44 = WiXaa t+ WoXas + WiaXac 十 WiXsa 十 WXss + WXse 


Fl Fl Fl Fl 
+ WiXes + WisXes 十 W33X66 十 已 
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利用 这 些 式 子 ， 可 以 得 到 下 式 。 











Oz ee Ozp _ O24 a (9) 
Owil 11 Ow 12 Ow 44 
根据 链 式 法 则 ， 有 
6C _6C Oz 6C Oz ,OC Oz (10) 
Ow Oz Own 2 Ozu owl 
把 5 的 定义 式 (7) 和 式 (9) 代入 式 (10) 中 ， 得 到 
oC 
Bw 二 0 + 6 x + OHX (11) 













































































式 (11) 的 右边 第 一 项 和 最 后 一 项 的 变量 关系 图 。 

















我 们 可 以 很 容易 地 将 式 (11) 扩展 到 过 滤器 的 其 他 分 量 。 设 大 为 过 滤 
器 的 编号 (这 里 与 卷 积 层 的 编号 相同 ), i、j 为 过 滤器 的 行 、 列 编号 (i、 
j=1,2,3),， 将 上 式 进行 一 般 化 ， 如 下 所 示 。 












































oC 


_ Fk Fk Fk 
=01 x +0 Xj t+ On Kirsj3 


0 Fk 路 
Ws 

















际 情况 对 该 式 进行 相应 的 改变 。 
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注 : 这 是 像素 数 为 6x6、 过 滤器 大 小 为 3x3 时 的 关系 式 。 在 其 他 情况 下 ， 需 要 根据 实 
一 性 
日 











此 外 ,代价 函 数 关 于 卷 积 层 神经 单元 的 偏 置 的 偏 导 数 可 以 如 下 求 得 。 


























卷 积 层 各 个 子 层 的 所 有 神经 单元 的 1 











前 置 都 是 相同 的 ， 例 如 对 于 第 一 个 特 








征 映射 来 说 ， 可 以 得 到 下 面 的 关系 式 。 这 与 式 (12) 是 一 样 的 。 


oC oC Oz 


Cr OC Oz4 





Op™ 6zn Op™ 


Oz1 Ob™ Oz Obiy (13) 


Fl SFl Fl 
=0 +0, + + Ou 





这 式 (13) 的 右边 第 一 项 和 最 
Be 后 一 项 的 变量 关系 图 。 



























































式 (13) 可 以 如 下 进行 推广 ， 其 中 为 卷 积 层 的 子 层 编 号 。 简 而 言 之 ， 


代价 函数 关于 卷 积 层 神经 单元 的 























所 有 神经 单元 误差 的 总 和 。 








衣 置 的 偏 导 数 ， 就 是 卷 积 层 各 个 子 层 的 























注 : 这 是 像素 数 为 6x 6、 过 滤器 大 小 为 














情况 对 该 式 进 行 相应 的 改变 。 























3 时 的 式 子 。 仕 县 他 情况 Ns 需要 根据 实际 
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像 这 样 ， 由 式 (8)、 式 (12) 和 式 (14) 可 知 ， 如 果 能 求 出 神经 单元 误差 
565， 就 可 以 求 出 式 (5) 的 所 有 梯度 分 量 。 因 此 我 们 的 下 一 个 课题 就 是 计算 
由 式 (7) 定义 的 神经 单元 误差 6。 


与 简单 的 神经 网 络 (4-3 节 ) 的 情况 一 样 ， 计 算 神 经 单元 误差 5 也 
是 利用 数列 的 递 推 关系 式 (2-2 市 ) 首先 求 出 输出 层 的 神经 单元 误差 6， 
接着 通过 递 推 关系 式 反 向 地 求 出 卷 积 层 的 神经 单元 误差 5。 

下 面 我 们 先 来 求 输出 层 的 神经 单元 误差 6。 激活 函数 为 a(z)，n 为 该 
层 的 神经 单元 编号 ,根据 定 义 式 (7)， 有 








6c aca ac， 





9 Oz° G6a° 60z° Ga° Co) 
根据 式 (4)， 有 
a -t, (n=1, 2, 3) (16) 


将 式 (16) 代入 到 式 (15) 中 ， 就 得 到 了 输出 层 的 神经 单元 误差 5。 


2 = (0 一 )a Cr ) (17) 


与 神经 网 络 的 情况 一 样 (4-3 节 )， 接 下 来 要 做 的 就 是 建立 “ 反 向 ” 
递 推 关系 式 。 我 们 以 6% 为 例 进 行 考察 。 根 据 偏 导数 的 链 式 法 则 ， 有 


m_ OC 6C Or Oa zn Oar 
此 Oz pz Oa pz pa O21 
人 a et ar | 2 Ba i Be 
05 Oa Oi 00 O21 Cs Od! Bir Oa 人 ii 





(18) 
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式 (18) 的 右边 的 变量 关系 


加 























把 式 (18) 中 的 公 因 式 提取 出 来 ， 就 可 以 像 下 面 这 样 进行 简化 。 








了 -个 6zo OC 029 6C 6 | 名 6zn po 
11 


6z0 a! Oz Oa 6z9 60 | 8 6afl 6z 
根据 式 (3)， 有 


0 oO 0 
O21 ol 2; 027 Oz 03 


Ri 1-11y》 Pl 1-11》 Pl 1-11 
Oail Oa1l Oa1l 





再 根据 式 (2)， 有 


Pl_ Ppl _pPl Fl Fl FI ,FI 
al =211, 21t = Max(ai1, Qi, 421, 022 





根据 式 (21) 中 的 oa = za ， 可 得 


Pi 
Oa 


三 于 
Oz 





此 外 ， 由 于 an 、ap 、a% 、o 在 进行 池 化 时 形成 一 个 区 块 ， 


Max( a , ap ， asl， aw ) 的 偏 导数 可 以 如 下 表示 。 


(19) 


(20) 


(21) 


(22) 


所 以 
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(23) 











a 用 (在 区 块 中 in 是 最 大 时 ) 
da 【0 〈 在 区 块 中 中 不 是 最 大 时 ) 


Fl 
Oail 

Fl 
O211 


代入 式 (19)， 可 得 


由 于 也 可 以 记 为 wa) ， 把 5 的 定义 式 (7) 以 及 式 20) 一 C3) 








Fl 0 .01 0, 02 0 .03 
on ={O Wan t+O Wn to wn} Xl 


x 当 an 在 区 块 中 最 大 时 为 1， 否 则 为 0) xa'(zn) C4) 








其 他 的 神经 单元 误差 也 可 以 用 同样 的 方式 进行 计算 ， 因 此 上 式 可 以 
推广 如 下 。 





Fk _ 1so， ol 0_ 02 0 ,03 
O; ={O Weay +0, Weiy + 3 wep} 


x ( 当 ax 在 区 块 中 最 大 时 为 1， 否 则 为 0 ) x a'(zy ) 





这 里 ,Kk、i、j 等 的 含义 与 前 面相 同 。 此 外 ， 六 、 六 表示 卷 积 层 i 行 j 列 的 
神经 单元 连接 的 池 化 层 神 经 单元 的 位 置 。 


G34 = {6P wy 向 062 Wi 十 0 wo,} 
x ( 当 a 在 区 块 中 最 大 时 为 1， 否则 为 0) x a'(z9) 











( 当 a3 在 区 块 中 最 大 时 为 1, 否则 为 0 ) 




































































中 出 现 的 变量 的 关系 。 
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这 样 我 们 就 得 到 了 输出 层 和 卷 积 层 中 定义 的 神经 单元 误差 6 的 关系 
式 (也 就 是 递 推 关系 式 )。 输 出 层 的 神经 单元 误差 6 已 经 根据 式 (17) 得 到 











了 


经 单元 误差 5。 这 就 是 卷 积 神经 网 络 的 误差 反 向 传播 法 的 结构 。 











卷 积 层 输出 层 














误差 反 向 传播 法 的 结构 。 只 要 求 




















出 输出 层 的 神经 单元 误差 5， 就 








单元 误差 5。 


可 以 简单 地 求 出 卷 积 





层 的 神经 


因此 利用 关系 式 (25)， 即 使 不 进行 导数 计算 ， 也 可 以 求 得 卷 积 层 的 神 


让 


证 明 加 加 的 关系 式 。 


解 与 式 (24) 的 证 明 一 样 ， 如 下 所 示 。 


Pl a,Fl 
O02, 9034 





O O O Pl 
mH OC 芋 Oz% 6Ca8 6c6z Es 
34 Fl O APIl O APl O APIl Pl 
Oz34 [Oz Oa Oz; Od) 6 Oa | 0z， 
O O O 
O21 ol O02; wo? O23 03 
Pl ~ "1=22’ Pl ~ "1=22’ Pl ~ "I-22 
Oa 6a)， Ga 


Pl _ Pl ,Pl Fl Fl Fl Fl 
ly = 222，222 = Max(ls3, 434s 043，044 























Bay ，6 _]1 在 区 块 中 a 是 最 大 时 ) 
az ”6a [0 (在 区 块 中 四 不 是 最 大 时 ) 
Gay 
O23 


由 于 也 可 以 记 为 a(zyss )， 所 以 根据 以 上 式 子 可 得 














Fl 0 01 0, 02 0 .03 
O34 ={0 Wy + Os Wizs + 63 ws} Xl 


这 样 就 得 到 了 的 式 子 。 


Fl 二 可 
Gu Oz34 


x 当 ay 在 区 块 中 最 大 时 为 1， 否 则 为 0) x a'(z3 ) 


和 品 后 : 忆 司 忆 挟 旺 二 量 症 天 天天 局 己 局 :让 : 二 韦 : 画 明 : 画 -局 部 串 吨 , 噩 .中 王 , 匡 电 
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用 Excel 体 验 卷 积 神经 网 络 的 
误差 反 向 传播 法 





与 第 4 章 中 考察 的 神经 网 络 一 样 ， 在 卷 积 神经 网 络 中 也 可 以 利用 误 
差 反 向 传播 法 。 下 面 我 们 利用 前 面 考察 过 的 以 下 回国 ， 用 Excel 实际 地 
进行 计算 。 
注 : 计算 步骤 与 4-4 节 相 同 。 











和 


' 回国 对 于 5-5 节 中 考察 的 卷 积 神经 网 络 ， 我 们 来 确定 它 的 过 滤器 、 权 ， 
' 重 、 偏 置 的 值 。 学 习 数 据 的 96 张 图 像 实例 收录 在 附录 B 中 。 激 活 函 数 ， 
' 使 用 Sigmoid 函数 。 ' 


NE 





作为 解答 示例 的 神经 网 络 请 参考 5-1 节 ， 变 量 和 参数 的 关系 式 请 参 
考 5-5 节 。 现 在 ,我 们 来 进行 具体 的 计算 。 
GD 读 入 学 习 用 的 图 像 数据 

为 了 证 卷 积 神经 网 络 进行 学 习 ， 需 要 用 到 学 习 数 据 。 因 此 ， 与 5-4 
节 的 步骤 中 同样 地 读 入 图 像 数据 。 


























H x ToTle ww | 


























@) 设置 过 滤器 分 量 、 权 重 和 偏 置 的 初始 值 
现在 的 过 滤器 分 量 、 权 重 和 侦 置 当然 是 未 知 的 ， 需 要 以 初始 值 为 出 
发 点 来 求 出 。 因 此 ， 我 们 利用 正 态 分 布 随机 数 (2-1 节 ) 来 设置 初始 值 。 
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此 外 还 要 设置 小 的 正 数 作为 学 习 率 1。 









































ss BTCT DT E FE 

1 | 数字 1、2、3 的 识别 (Sigmoid》 

2 

、 3 SH 
Ea 设置 学 习 率 7 
5 

6 

Ta 

8 

12 | | 参数 1 2 3 



















= 0.454 8 

1.138 -2398 -1.664 
-0.794 0.899 
-1274 2338 
0649 -0339 
-1.022 -1204 
-1.869 2.044 
-1.710 -2.091 
0201 -1323 
-3.363 | -3.176 


































2 | : 过 滤器 分 量 、 权 重 和 
2 偏 置 的 初始 值 

















有 山东 已 现 吕 





0238 
2246 | -0.093 
-1322| -0218 








DU 








在 从 单元 格 D13 开始 的 区 域 





























36 3.527| 0061 
37 0.613 | 0218 设置 过 滤器 分 量 、 权 重 和 偏 
38 -2.130| -1678 











的 初始 值 。 一 共 由 69 个 参数 

























































































39 1236 | -0486 、 一 
40 构成 。 这 里 利 标准 正 态 分 
41 des 布 随 机 数 来 设置 初始 值 。 

MW CH 和 ED 学习 率 / 的 设置 
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就 像 第 4 章 中 考察 的 那样 ， 在 设置 学 习 率 7 时 需要 进行 反复 试 错 。 如 果 
1 过 小 ， 则 代价 函数 Cr 不 能 迅速 地 达到 最 小 值 ， 也 可 能 掉 进 意料 之 外 的 极 小 











值 处 。 反 之 ， 如 果 7 过 大 ， 则 存在 代价 函数 Cr 不 收敛 的 风险 。 我 们 的 

















标 是 


将 代价 函数 Cr 最 小 化 ， 为 了 使 Cr 的 值 变 得 充分 小 ， 需 要 尝试 各 种 不 同 的 值 


来 计算 。 
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(3) 算出 神经 单元 的 输出 值 以 及 平方 误差 C 
对 于 第 1 张 图 像 ， 利 用 当前 给 出 的 过 滤器 分 量 、 权 重 和 侦 置 的 值 来 





求 出 各 个 神经 单元 的 加 权 输 入 、 激 活 函 数 的 值 以 及 平方 误差 C。 

















EEE EE BREE eee EE EEE 








4 





品 


0.649 -0339 
-1.022 -1.204 


-2.054 
-1.900 
-1.290 
-2.091 -2.946 
0.201 -1323 0.207 


-1.869 2.044 
-1.710 





5 
号 中 
[有 | 


中 


-oo 
© 
总 号 
[td 
器 名 


图 
图 


bo 
B 
059 


上 
Et 


由 岂 
1 
总 癌 
gla gle 
品 | 号 总 


3 


EO 
十 
上 
28 


be 

吕 
出生 
图 

















口 


入 了 存 凯 医 二 


——— 
BS 








1 
2 








3 
c | 





0.149 
0.033 
0.033 


0.003 
0.013 
0.013 


0.040 0.085 
0.040 | 0.085 
0.149 0.043 
0.149 0.043 


1.300 
2.106 
-1.841 





0.786 
0.109 
0.137 






平方 误差 ( 5-5 节 式 (4) ) 


5 
| 1 | 数字 1、2、3 的 识别 〈Sigmoid) 

2 

3 

[LT o 也 
5 

| 模 
上 | 

到 下 可 
L151 和 一 
16 -274 2338 2.301 


池 化 层 神 


(5=5 节 式 {( 和 0') 
卷 积 层 神经 让 
元 的 输出 ( 5-5 


出 ( 5=5 节 式 i 





层 神经 单 
加 权 输 入 

















节 直 全) 













经 





元 的 输 
2 








输出 层 社 


出 (5-=5 节 式 (3)) 





经 单元 的 输 
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人 根据 误差 反 向 传播 法 计算 各 层 的 神经 单元 误差 5 

首先 ， 计算 输出 层 的 神经 单元 误差 59 (5-5 节 式 (17) )。 接 着 ,根据 
“ 反 向 ” 递 推 关系 式 计算 6” (5-5 节 式 (25) )。 
@) 根据 神经 单元 误差 计算 平方 误差 C 的 偏 导 数 


根据 步骤 人 中 中 求 出 的 5， 计算 平方 误差 C 关于 过 滤器 、 权 重 和 偏 置 
的 偏 导 数 。 











[ 1 次 Cr [02544] 













全 计算 神经 让 
元 误差 列 55 
人 起 
(25) ) 


乌 左 着 


参数 的 梯度 1 


| 0.000 0.007 | 0.000 (5S 平方 误差 关于 过 滤 
= 0.000 0.007 0.000 器 的 偏 导 数 (5-5 
Coy 007 od 节 式 (12) ) 










沙 畦 












re @) 平 方 误差 关于 卷 积 
Ei 层 神 经 单元 的 偏 

的 偏 导 数 ( 5-5 节 式 

(14) 









































况 局 局 民 司 
引 引 3 3 
glesscles 
3888 


吕 
避 
目 


加 平方 误差 关于 输出 层 
神经 单元 的 权重 的 信 
导数 5-5 节 式 (8) ) 


洲 牛 匣 瑟 采 淅 半 蒜 


CERTCNICEETCI 


| 下 | 
昌明 明和 组 目 引 
Slee 











© 
昌 
己 
目 











SEEEees ess esse ee ene nesses 


























神经 单元 的 偏 置 的 偏 
导数 | 5-5 节 式 (8) ) 

















图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 
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@ 计算 代价 函数 Ci 及 其 梯度 VC 

到 目前 为 止 ， 我 们 以 第 1 张 图 像 作为 学 习 数据 的 代表 进行 了 考察 。 
我 们 的 目标 是 把 前 面 的 计算 结果 对 全 部 数据 加 起 来 ， 得 到 代价 函数 C7 及 
其 梯度 值 。 因 此 ， 必 须 把 前 面 建立 的 工作 表 复制 到 全 部 学 习 数 据 的 96 张 


图 像 上 。 


lol Hx 








"3 TS 下 





到 


> 协 范 品 号 肌 党 耿 


太 贞 六 三 毛 
故 堆 瑟 铅 藻 叱 


J 









N 
四 








出 从 源 
















0.033 0013 
0.033 0.013 
0.040 0.085 
0.040 0.085 









复制 函数 到 96 张 图 像 数据 上 
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对 96 张 图 像 复制 完毕 之 后 ， 将 平方 误差 C， 以 及 步 桑 @ 中 求 得 的 平 
方 误差 C 关 于 参数 的 偏 导数 加 起 来 ， 这 样 就 算出 了 代价 函数 的 值 和 梯度 
(5-5 节 式 (6) )。 























参数 的 梯度 1 

















-3.463 0.035 0.073 0.000 0.000 0.000 
-1.723 -3.677 -3091 0.000 0.000 0.000 
-0.148 -1.660 -0052 
-1.599 0.433 0322 
0.189 0927 -0341 
-0.044 -1215 -0.024 
0.031 -0228 0.022 
-0.165 0.177 -0.640 


-2.989 | -0.805 | -1.156 




























股东 口 弄 吕 





刹 涪 
| ls| Is) ls| js| Is| js| ls| js | ja | 9 





Bl 
上 胆 落 由 负 口 











89 











像 的 平方 误差 C 的 偏 导 数 的 总 和 就 是 梯度 分 量 




















C) 根据 (6) 中 求 出 的 梯度 ， 更 新 权重 和 偏 置 的 值 
利用 梯度 下 降 法 的 基本 式 (5-5 节 式 (5) )， 更 新 过 滤器 、 权 重 和 俩 置 
(2-10 节 ) 为 此 ,在 上 述 @ 的 工作 表 下 面 建立 新 的 工作 表 ， 计 算出 更 新 值 。 
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59 
-80 
el | 二 a a 
ez | -3.463 | 0.035 0.073 
63 -1.723 | -3.677 | -3.091 
[64 | F2 | -0.148 | -1.660 | -0.052 已 
6551 .| -1599 | 0.433 | 0322 营 
本 | | 层 0189 0927 -0341 层 
[er | F3 | -0.044 -1215 | -0.024 F3 
[88 | EE 0.031 -0228 | 0.022 | 
[sg9| -0.165 0.177 -0.640 
[| [vas|-2989T-0s05T-1156| [| 
FE 高 
2 | EE 0451 002 
| | 1 0235 | -0.077 园 
区] 如 [是 0.038 KE | 
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lre| -0115 | -0.126 k 
77 -0.067 0.005 
出 | [ee es | 
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89 | |O 层 bias | -0580| -1.574 | -2500| | |O 层 bias 
[go 
| 31 | | 倒 镶 
Ey 7 i 0.819 
93 1831 -2.405 -1.679 
94. -0450 1.634 1294 
5 -1245 2670 2312 

0.969 -0426 -2.118 

-1.060 -1390 -1.831 

-1.860 2287 -1285 

-1L716 -2.045 -2.950 

0234 -1358 0.335 
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5-5 节 的 


式 (5) 和 2-10 
节 的 式 (8) 
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梯度 


式 (5-5 节 式 (5))， 





下 降 法 的 基本 


计算 








出 新 的 
1 次 计 


权重 条 
算 ( 


和 偏 [e] 


~ 四 的 块 


王国 
习 轴 


大 














域 空 出 1 


+ 


2 次 计算 。 


开始 








证 网 
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5-6 ”用 Excel 体验 卷 积 神经 网 络 的 误差 反 向 传播 法 | 


反复 进行 B) 一 @) 的 操作 























































































利用 CO 中 算出 的 新 的 权重 w 和 偏 置 2， 再 次 执行 从 @ 开 始 的 处 理 。 把 
DE pe y i 四 一 
这 样 算出 的 第 2 次 处 理 的 块 状 区 域 复制 49 份 到 下 面 ， 进 行 50 次 计算 。 

|3883 | 1 3 次 

3884 Fl | -0648 -0785 0353 | -3460 -452 -6041 -0984 

|3885| 站 2397 -3776 -2.737 3460 4512, -6041 -0984 

3886 0727 1979 1332 3.460 4512, -6041 -0984 

3887 - -3460 4512 -6041 -0984 

|3888| 关 层 | z 取 | -3640 -5794 -3838 -2366 

3889 的 -3.640 -5.794 -3.838 -2366 

|3890 加 -3.640 -5.794 ， -3.838 -2.366 

15891 | 权 -3.640， -5794 -3.838 -2366 

3892 六 23| -2535 -6482 -3954 -6099 

3893 lbias | -3.460| -3.640| 22.535| 2535 -6482 -3954 -6099 

3894 =- -6.099 

(3895 | -1.781 -6.099 

3897 0545 . . $i 

3898 2 0-030 9-0 0-00 算出 的 过 滤器 

(3899 -0.886 算 | 疮 0030 0011， 0002 | 分 量 、 权 重 和 

3900 -0.693 出 | 积 | oa| 0026 0003 0021 

3901 -3.149 变 | 层 0026 0003 0021 

|3902 2771 里 | 的 0026 0.003 0.021 

3903 -0578 值 a 0026 0003 0021 

3904 | 

3905 

3906 

3907 

3908 

3909 

3910 

3911 

3912 

3913 

3914 

3915 

3916 50 次 计算 

3917 SA 

2 | 后 代价 函 
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把 从 60 行 到 120 行 的 块 状 





区 域 复制 49 份 到 下 面 。 

















通过 以 上 步 又 ， 计 算 就 结束 了 。 我 们 来 看 看 代价 函数 Cr 的 值 。 
代价 函数 Cr = 0.497 


由 于 学 习 数 据 由 96 张 图 像 构 成 ， 每 张 图 像 平 均 为 0.005。 根 据 平方 
误差 的 函数 (5-5 节 式 (4) )， 每 张 图 像 的 最 大 误差 为 32 = 1.5， 因 此 可 以 
说 以 上 步骤 算出 的 是 一 个 很 好 的 结果 。 
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| 第 5 章 


深度 学 


习 和 卷 积 神经 网 络 


用 新 的 数字 来 测试 
我 们 创建 的 神经 网 络 是 用 于 识别 手写 数字 1、2、3 


的 。 我 们 来 确认 一 下 实际 上 它 能 


否 正确 识别 数字 。 下 面 


的 Excel 工作 表 是 利用 步骤 @@ 中 得 到 的 参数 并 输入 右边 


































-1.72 -2.37 






-7.53 ， -8.52 
-0.83 4.34 








-8.33 
-7.73 















































-2.10 
4.11 


Y i | Pz bY BE PY  6 99 
的 图 像 进行 计算 的 例子 。 判 定 结果 为 数字 “3”。 
2 网 BTCcTDT a i in | 
“| 数字 1、2、 3 的 识别 (Sigmoid) 
2 
匡 济 | 
Ee 
Ea 
区 济 
[2 
性 :时 
Ea 
_12| 
-0.65 -078 0.35 123| 457| 794| | 测评 用 图 像 妇 
是 240 -378 -2.74 997 3.15, 013 测试 Ce 像 的 
073 198 133 郑 3.11| 3.89| 630| -590| | 位 模式 
二 | 过 | 亚 | 070 392 198 六 -0.15| 058| -3.14| -7.29 
积 3 296 -139 -297 层 09| 234| -5.12| 2.80 
刁 | 堆 -098 -272 -1.17 的 661| -8.00| -126 0.52 
-182 2.64 加 -1.66| 226| 4.56| -8.46 
权 
Ei 
EE 入 











sli: ss ls se eees sses esse se rb 
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hn 
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让 全 = 


口 
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ee Ded La 
包 世 | 圳 这 | 品 尖 
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随 计 让 轴 和 站 导 环 线 壳 
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oO 
别 | | 多 BDI 


| | | 





凯 
in 
加 








-792 
-1.19 
-3.89 


-5.55 





0.09 
0.00 
0.91 
0.00 
0.01 
0.00 
0.23 
0.02 





-7.56 
-438 
-8.55 


0.01 
0.22 
0.01 
0.00 
0.00 
0.00 
0.01 
0.00 














-3.30 
-8.41 




















0.63 
0.00 
0.11 





输出 层 中 用 于 检测 数 
字 "3” 的 第 3 个 神经 
单元 的 输出 是 最 大 的 








判定 为 数字 "3” 
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es 全 号 绿 踪 代 价 函 数 Cr 的 值 
跟踪 50 次 代价 函数 的 计算 结果 ， 就 可 以 实际 理解 梯度 下 降 法 的 含义 。 
从 逻辑 上 看 ， 代 价 函 数 Cr 的 值 当 然 是 随 着 每 次 迭代 而 减 小 。 第 4 章 中 我 们 
已 经 考察 过 ， 梯 度 下 降 法 的 优点 就 是 减 小 的 速度 是 最 快 的 。 




























11.674 0.946 
| 6 |6007 | 26 | 08s3 | 46 | 0536 
| 8 |2277 | 28 | 0828 | 48 | 0516 
| 9 |2076 | 29 | 0804 | 49 | 0.506 


| 0.946 | 

















不 过 ， 用 计算 机 执行 误差 反 向 传播 法 时 ， 也 存在 代价 函数 CT 不 减 小 的 情 
况 。 就 像 第 4 章 中 考察 的 那样 ， 可 以 认为 原因 是 学 习 率 和 初始 值 不 合适 。 在 
这 种 情况 下 ， 可 以 修改 学 习 率 和 初始 值 重新 进行 计算 。 
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训练 数据 ( 1 ) 





以 下 是 第 1 章 、 第 3 章 以 及 第 4 章 的 器 中 建立 的 神经 网 络 的 学 习 
数据 。 用 4x3 像素 画 出 数字 0、1。 考 虑 到 实际 情况 ， 学 习 数据 中 也 会 出 
现 相 同 的 图 像 。 


| 编 引 1| 2 3 4 5 el 7 8 el 1of 11| 12| 13| 14| 15| 16| 
De | 


Tl 


eal ED 


J 





EL 





| 编号 | 33| 34| 35| 36| 37| 38| 39| 40| 41| 42| 43| 44| 45| 46| 47| 48| 
TH 


: 1 [EL 
: 是 | | 
3 | I | | 中 ， 上 l 
4 

[正解 | 和 泪 和 利润 各 潮 和 和 油 和 让 和 让 和 莉 








编号 
23|12 2.3|12.3|1.2.3|1.2.3|12.3|1.2 23|123|123|123|123|123|123|12 


用 LNUDOHUnTUR 


[EE 和 
注 : 图 像 中 的 线条 有 时 会 断 开 ， 或 者 出 现 斑点 一 样 的 东西 ， 可 以 认为 这 是 在 扫描 数字 时 














> 




















受到 了 噪声 的 影响 。 
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训练 数据 ( 2 ) 








以 下 是 第 5 章 的 回 I 辐 中 建立 的 神经 网 络 的 训练 数据 。 用 6 x 6 像素 画 
出 数字 1、2、3。 图 像 像 素 为 单 色 二 值 (0 和 1 )。 









































1|2|314|5|l6|1|21314l5l6l1|21314lsl6l1|2|314l5l6l1|213|14l5l6|l1121314lslel1|2|3|4lsl6 
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的 甬 用 数学 式 表示 模式 的 相似 度 





卷 积 神经 网 络 的 特征 映射 的 值 以 图 像 和 过 滤器 的 相似 度 作 为 输入 信 
息 。 相 似 度 可 以 利用 下 面 的 定理 进行 计算 。 

















由 3x3 像素 构成 的 两 个 数组 4、F 如 下 图 所 示 。A4、F 的 相似 度 
可 以 像 下 面 这 样 求 出 。 


相似 度 = Wi + Waia 十 Was 十 … 十 Wi3X3 (1) 




















F 























这 个 定理 可 以 利用 向 量 的 性 质 来 说 明 。 就 像 2-4 节 考 察 的 那样 ， 当 
两 个 向 量 a、5b 相似 时 ， 它 们 的 内 积 ab 较 大 。 我 们 可 以 认为 内 积 a.b 的 
大 小 表示 两 个 向 量 的 相似 性 。 


a:b=|allblcos96 (0 为 两 个 向 量 的 夹 角 ) 











a 两 个 向 量 的 内 积 是 它们 的 箭头 长 度 乘 以 夹 角 的 余弦 。 夹 角 越 
Ar 接近 0， 余弦 的 值 越 大 。 也 就 是 说 ， 当 向 量 相似 时 ， 内 积 的 
0 值 较 大 。 


为 了 利用 这 个 性 质 ， 我 们 将 4、 五 看 作 以 下 向 量 。 























A=(X1, Xl Klas Kals Kas Ny3s X31 N32, X33) 


下 三 (Wi Ws Was Wry Ws Wa3s Wa1s Wy, Ws) 


这 样 一 来 ， 两 个 向 量 的 内 积 4 .就 与 上 述 的 式 (1) 的 右边 一 致 (2-4 
节 ) 也 就 是 说 ， 我 们 可 以 把 式 (1) 解释 为 相似 度 。 
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